Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记-个人在线分享

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1

Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13

Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1

1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI

摘要

评估基于大型语言模型（LLM）的聊天助手具有挑战性，因为它们具备广泛的功能，现有基准不足以测量人类的偏好。为了解决这个问题，我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性，包括位置、冗长和自我提升偏见，以及有限的推理能力，并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性：MT-bench，这是一个多回合问题集；以及Chatbot Arena，这是一个众包战斗平台。我们的结果显示，像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好，达到超过80%的一致性，与人类之间的一致性相同。因此，LLM作为评审是一种可扩展和可解释的方式，可以近似人类偏好，这些偏好通常非常昂贵。此外，我们通过评估LLaMA和Vicuna的多个变种，展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在http://github.com/lm-

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

admin 钻石

相关推荐