Llama 4 Maverick的标准版本在LM Arena排名中的得分显著低于其竞争对手,此前Meta使用了测试版本以获得高分。
本周初,Meta因使用尚未正式发布的Llama 4 Maverick测试版本而受到批评,该版本在众包评估平台LM Arena上获得了高分。这一事件导致LM Arena管理员不得不道歉,并更改政策,重新评估Maverick的标准版本。
结果显示,Meta的"Llama-4-Maverick-17B-128E-Instruct"标准版本实际上并不具有竞争力。截至周五,该模型的排名低于OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet和Google Gemini 1.5 Pro——这些模型早已在几个月前上线。
存在争议的优化策略
根据Meta的解释,Llama-4-Maverick-03-26-Experimental测试版本是"为对话性能优化",这似乎与LM Arena的评估方式相符——评估者比较模型的结果并选择他们更喜欢的模型。
由于多种原因,LM Arena从未被视为最可靠的AI模型性能衡量标准。然而,调整模型以适应特定评估标准不仅会造成误解,还会使开发者难以准确预测模型在不同背景下的性能。
Llama 4的发布版本已被添加到LMArena,因为发现他们作弊,但你可能没有看到,因为你必须向下滚动到第32名,这就是它的排名 pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) April 11, 2025
Meta的发言人在接受TechCrunch采访时表示:"Llama-4-Maverick-03-26-Experimental是我们正在测试的针对对话优化的版本,同时在LM Arena上表现良好。我们现已发布开源版本,并将观察开发者如何为其特定使用情况定制Llama 4。我们非常期待看到他们将构建什么,并期待持续的反馈。"
这一事件引发了关于AI性能评估透明度的质疑,尤其是在大型科技公司激烈竞争开发大型语言模型的背景下。重要的是,评估标准需要准确反映AI模型的实际能力,而不是受到特殊优化版本的影响。
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。