OpenAI 在大数学测验中作弊了吗？

一个在考试前就记住答案的模型有多智能?这是 OpenAI 在 12 月推出 o3 后面临的问题,该公司吹捧其模型的令人印象深刻的基准测试成绩。当时,一些专家认为它几乎与 AGI 一样强大,AGI 是指人工智能能够达到人类在任何任务上的同等表现。

但金钱改变了一切,甚至数学测试也不例外。

OpenAI 在 FrontierMath 上取得 25.2% 的惊人成绩,这是一个由 Epoch AI 开发的具有挑战性的数学基准测试,但随后出现了一些问题。原来 OpenAI 不仅通过了测试,还参与了测试的编写。

Epoch AI 在 FrontierMath 白皮书的脚注中表示,他们感谢 OpenAI 在创建基准测试中的支持,这引起了一些热衷者的警惕。更糟糕的是,OpenAI 不仅为 FrontierMath 的开发提供了资金支持,还获得了问题和解决方案的访问权。Epoch AI 后来透露,OpenAI 聘请他们提供了 300 个数学问题及其解决方案。

Epoch 表示,OpenAI 签署了一份合同,表示不会使用这些问题和答案来训练其 o3 模型,但并没有签署任何法律合同来确保这一点。

这一争议不仅涉及 OpenAI,也指出了人工智能行业在验证进展方面存在的系统性问题。一项最近的调查发现,其他一些表现出色的模型也能够逐字重现 MMLU 和 GSM8K 基准测试的 6,882 页内容。这使得无法真正评估这些模型的实力和准确性。

为了确保真正的测试能力,Epoch 表示将实施一个"保留集"的方法,从 OpenAI 那里保留 50 个随机选择的问题。但创造真正独立的评估仍然是一个巨大的挑战。

The End

文章声明：以上内容(如有图片或视频亦包括在内)除非注明，否则均为谈天说币原创文章，转载或复制请以超链接形式并注明出处。

OpenAI 在大数学测验中作弊了吗？

okex欧易交易所

24小时精选

热门文章

OpenAI 在大数学测验中作弊了吗？

okex欧易交易所

相关阅读

比特币统治率创四年新高，但专家对山寨币季节仍存在Chia

前Facebook团队打造的PayFi龙头Huma Finance，Q2发币前最后上车机会

多个技术指标罕见共振：BTC酝酿新一轮突破？

以太坊生死线告急！1500美元支撑位一旦失守，或将重现2022年“大屠杀”行情

24小时精选

热门文章