一个在考试前就记住答案的模型有多智能?这是 OpenAI 在 12 月推出 o3 后面临的问题,该公司吹捧其模型的令人印象深刻的基准测试成绩。当时,一些专家认为它几乎与 AGI 一样强大,AGI 是指人工智能能够达到人类在任何任务上的同等表现。
但金钱改变了一切,甚至数学测试也不例外。
OpenAI 在 FrontierMath 上取得 25.2% 的惊人成绩,这是一个由 Epoch AI 开发的具有挑战性的数学基准测试,但随后出现了一些问题。原来 OpenAI 不仅通过了测试,还参与了测试的编写。
Epoch AI 在 FrontierMath 白皮书的脚注中表示,他们感谢 OpenAI 在创建基准测试中的支持,这引起了一些热衷者的警惕。更糟糕的是,OpenAI 不仅为 FrontierMath 的开发提供了资金支持,还获得了问题和解决方案的访问权。Epoch AI 后来透露,OpenAI 聘请他们提供了 300 个数学问题及其解决方案。
Epoch 表示,OpenAI 签署了一份合同,表示不会使用这些问题和答案来训练其 o3 模型,但并没有签署任何法律合同来确保这一点。
这一争议不仅涉及 OpenAI,也指出了人工智能行业在验证进展方面存在的系统性问题。一项最近的调查发现,其他一些表现出色的模型也能够逐字重现 MMLU 和 GSM8K 基准测试的 6,882 页内容。这使得无法真正评估这些模型的实力和准确性。
为了确保真正的测试能力,Epoch 表示将实施一个"保留集"的方法,从 OpenAI 那里保留 50 个随机选择的问题。但创造真正独立的评估仍然是一个巨大的挑战。
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。