很好,一个与 @lmsysorg 在评估大语言模型方面的有力竞争者加入了对话。大语言模型的评估正在改进,但不久前它们的状态还非常黯淡,定性体验与定量排名往往不一致。这是因为建立良好的评估方法非常困难 - 在特斯拉,我可能有1/3的时间花在数据上,1/3花在评估上,1/3花在其他所有事情上。评估必须全面、有代表性、高质量,并衡量梯度信号(即不能太容易,也不能太难),在定性和定量评估一致之前,有很多细节需要考虑和处理。我推荐的一些有趣的细节可能是Open LLM Leaderboard MMLU的说明: 另一个不太明显的部分是,任何开放(非私有)的测试数据集不可避免地会泄露到训练集中。这是人们强烈直觉怀疑的事情,也是最近这个GSM1k轰动一时的原因 即使大语言模型开发人员尽了最大努力,防止测试集渗透到训练集中(并记住答案)也是困难的。当然,你可以尽最大努力过滤掉完全匹配的内容。你还可以用 n-gram 重叠或类似方法过滤掉近似匹配。但是你如何过滤掉合成数据重写,或与数据相关的在线讨论?一旦我们开始常规训练多模态模型,你如何过滤掉数据的图像/截图?你如何防止开发人员例如对测试集进行向量嵌入,并专门针对在嵌入空间中与测试集高度一致的数据进行训练?最后一个组成部分是,并非所有我们关心的大语言模型任务都可以自动评估(例如总结等),此时你希望让人类参与进来。当你这样做时,你如何控制所涉及的所有变量,例如人们对实际答案、长度、风格的关注程度,以及如何处理拒绝等。总之,良好的评估出人意料地困难,需要大量的工作,但相当重要,所以我很高兴看到更多的组织加入努力,做好这项工作。