一支由来自顶尖学术机构和科技公司的国际研究人员组成的团队,在周三颠覆了AI推理领域,推出了一个新模型,与中国最复杂的AI系统之一DeepSeek相匹敌,甚至有时超越它。
由Open Thoughts联盟开发的OpenThinker-32B在MATH500基准测试中获得90.6%的准确率,略高于DeepSeek的89.4%。
该模型在一般问题解决任务上也优于DeepSeek,在GPQA-Diamond基准测试中得分61.6,而DeepSeek为57.6。在LCBv2基准测试中,它达到了68.9的良好成绩,在各种测试场景中表现出色。
换句话说,它在一般科学知识(GPQA-Diamond)方面优于同等规模的DeepSeek R1版本。它在MATH500上也击败了DeepSeek,但在AIME基准测试中输给了DeepSeek,这两个基准测试都试图衡量数学能力。
它在编码方面也略逊于DeepSeek,得分68.9分对DeepSeek的71.2分,但由于该模型是开源的,一旦有人开始改进,这些分数都可能大幅提高。
这一成就的亮点在于其高效性:OpenThinker只需114,000个训练样本就能达到这些结果,而DeepSeek使用了800,000个。
OpenThoughts-114k数据集附带了每个问题的详细元数据:真实解决方案、代码问题的测试用例、必要的起始代码以及特定领域的信息。
它的定制Curator框架验证了代码解决方案是否符合测试用例,而一个AI裁判处理了数学验证。
该团队报告说,他们使用了四个配备八个H100 GPU的节点,完成时间约为90小时。在意大利的Leonardo超级计算机上训练的另一个包含137,000个未经验证样本的数据集,在短短30小时内消耗了11,520个A100小时。
"验证有助于在扩大培训提示的多样性和规模的同时保持质量,"该团队在文档中指出。研究表明,即使是未经验证的版本也表现良好,尽管它们无法达到经过验证的模型的峰值结果。
该模型建立在阿里巴巴的Qwen2.5-32B-Instruct LLM之上,支持16,000个令牌的适度上下文窗口,足以处理复杂的数学证明和冗长的编码问题,但远低于当前的标准。
这一发布恰逢AI推理能力竞争日益激烈,这似乎以思维的速度在发生。OpenAI在2月12日宣布,GPT-5之后的所有模型都将具有推理能力。一天后,Elon Musk夸耀xAI的Grok-3增强了问题解决能力,承诺它将是迄今为止最好的推理模型,就在几个小时前,Nous Research发布了另一个开源推理模型DeepHermes,基于Meta的Llama 3.1。
在DeepSeek展示出与OpenAI的o1相当的性能,但成本大幅降低之后,该领域获得了动力。DeepSeek R1可免费下载、使用和修改,训练技术也已公开。
然而,与决定完全开源的Open Thoughts不同,DeepSeek开发团队保留了其训练数据的私密性。
这一关键差异意味着开发人员可能更容易理解OpenThinker并从头开始复制其结果,而不是DeepSeek,因为他们可以访问拼图的所有部分。
对于更广泛的AI社区来说,这一发布再次证明了在没有大规模专有数据集的情况下建立有竞争力的模型是可行的。此外,它可能是西方开发人员更值得信赖的竞争对手,他们仍然对使用中国模型(无论是否开源)存有疑虑。
OpenThinker可在HuggingFace下载。一个更小、功能较弱的7B参数模型也可用于低端设备。
Open Thoughts团队汇集了来自斯坦福、伯克利和UCLA等美国大学以及德国Juelich超级计算中心的研究人员。美国丰田研究所和欧盟AI领域的其他参与者也对此提供了支持。
由Josh Quittner和Sebastian Sinclair编辑
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。