Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记

作者 : admin 本文共709个字,预计阅读时间需要2分钟 发布时间: 2024-06-10 共2人阅读

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1

Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13

Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1

1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI

摘要

评估基于大型语言模型(LLM)的聊天助手具有挑战性,因为它们具备广泛的功能,现有基准不足以测量人类的偏好。为了解决这个问题,我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性,包括位置、冗长和自我提升偏见,以及有限的推理能力,并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性:MT-bench,这是一个多回合问题集;以及Chatbot Arena,这是一个众包战斗平台。我们的结果显示,像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好,达到超过80%的一致性,与人类之间的一致性相同。因此,LLM作为评审是一种可扩展和可解释的方式,可以近似人类偏好,这些偏好通常非常昂贵。此外,我们通过评估LLaMA和Vicuna的多个变种,展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在http://github.com/lm-

本站无任何商业行为
个人在线分享 » Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记
E-->