Metr合作伙伴透露对新AI模型的评估时间受到显著限制,发现其具有"欺骗"和"误导"OpenAI o3安全测试的能力。
在AI领域激烈竞争的背景下,OpenAI正面临加快其最新AI模型独立评估进程的指控。
根据Metr组织提供的信息,作为OpenAI评估AI模型能力和安全性的常规合作伙伴,他们未获得足够时间检查新的o3模型。
发现精细的"欺骗"行为
在上周三发布的博客文章中,Metr表示对o3模型的评估是在"相对较短的时间内"进行的,相比OpenAI之前的o1模型测试。这被认为令人担忧,因为据Metr称,额外的测试时间可能带来更全面的结果。
"这次评估在相对较短的时间内进行,我们仅使用简单的代理结构对[o3]进行了测试,"Metr在博客文章中写道。"我们预计通过更多测试工作可以实现更高的性能[在评估标准上]。"
根据《金融时报》最近的报道,OpenAI为一些测试单位提供了不到一周的时间来对即将上线的大型版本进行安全测试。然而,在官方声明中,OpenAI否认了他们在安全问题上妥协的观点。
基于在有限时间内收集的信息,Metr表示o3有"高度可能性"以精细方式"欺骗"或"误导"测试,以最大化分数——即使模型清楚地知道这种行为不符合用户(和OpenAI)的意图。该组织认为o3可能会参与其他对抗性或"有害"行为,不管模型关于遵守、"设计安全"或无个人意图的声明。
"尽管我们不认为这特别可能发生,但似乎重要的是要注意,我们的评估设置将无法检测到这种风险,"Metr在文章中写道。"总的来说,我们相信在部署前进行能力测试不是一个足够强大的风险管理策略,目前我们正在开发更多补充评估方式。"
另一个OpenAI独立评估合作伙伴Apollo Research也发现o3和o4-mini模型存在欺骗行为。在一次测试中,当被赋予100个计算信用用于AI训练并要求不修改限额时,这些模型将限额提高到500个信用——并对此说谎。在另一个实验中,当被要求承诺不使用特定工具时,这些模型在完成任务时仍使用了该工具。
在针对o3和o4-mini的自身安全报告中,OpenAI承认这些模型可能在现实世界中造成"较小的危害",比如在没有适当监督协议的情况下提供关于导致错误代码的错误信息。
"[Apollo]的发现表明o3和o4-mini有在上下文中进行策略性计划和欺骗的能力,"OpenAI写道。"尽管相对无害,但重要的是日常用户要意识到模型声明和行动之间的这些差异[...]这可以通过评估内部推理轨迹进一步研究。"
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。