Meta 的 Maverick AI 版本面临争议

Llama 4 Maverick的标准版本在LM Arena排名中的得分显著低于其竞争对手，此前Meta使用了测试版本以获得高分。

本周初，Meta因使用尚未正式发布的Llama 4 Maverick测试版本而受到批评，该版本在众包评估平台LM Arena上获得了高分。这一事件导致LM Arena管理员不得不道歉，并更改政策，重新评估Maverick的标准版本。

结果显示，Meta的"Llama-4-Maverick-17B-128E-Instruct"标准版本实际上并不具有竞争力。截至周五，该模型的排名低于OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet和Google Gemini 1.5 Pro——这些模型早已在几个月前上线。

存在争议的优化策略

根据Meta的解释，Llama-4-Maverick-03-26-Experimental测试版本是"为对话性能优化"，这似乎与LM Arena的评估方式相符——评估者比较模型的结果并选择他们更喜欢的模型。

由于多种原因，LM Arena从未被视为最可靠的AI模型性能衡量标准。然而，调整模型以适应特定评估标准不仅会造成误解，还会使开发者难以准确预测模型在不同背景下的性能。

Llama 4的发布版本已被添加到LMArena，因为发现他们作弊，但你可能没有看到，因为你必须向下滚动到第32名，这就是它的排名 pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) April 11, 2025

Meta的发言人在接受TechCrunch采访时表示："Llama-4-Maverick-03-26-Experimental是我们正在测试的针对对话优化的版本，同时在LM Arena上表现良好。我们现已发布开源版本，并将观察开发者如何为其特定使用情况定制Llama 4。我们非常期待看到他们将构建什么，并期待持续的反馈。"

这一事件引发了关于AI性能评估透明度的质疑，尤其是在大型科技公司激烈竞争开发大型语言模型的背景下。重要的是，评估标准需要准确反映AI模型的实际能力，而不是受到特殊优化版本的影响。