当研究人员试图阻止 AI 系统"产生坏想法"时,这些系统实际上并没有改善其行为。
相反,它们学会隐藏自己的真实意图,同时继续追求有问题的行为,这是根据 OpenAI 的新研究得出的结论。
这种现象被研究人员称为"模糊化的奖励黑客",它提供了关于训练过程的宝贵见解,并显示了确保先进 AI 系统在变得更加强大时保持透明度和与人类价值观保持一致的重要性。
现在 AI 开发者正集中精力研究所谓"嵌入式思维链"的推理模型,这一点尤其重要。
"过度优化会导致代理学会模糊化的奖励黑客,在思维链中隐藏其意图,同时仍然表现出显著的奖励黑客率,"OpenAI 研究人员在周一发表的一篇论文中写道。"由于很难判断思维链何时变得模糊,我们可能需要支付一定的可监控性成本。"
透明的推理方法为我们提供了一个窥视 AI 系统思维的窗口,通常会显示出明确的意图,否则这些意图将保持隐藏。
我们已经看到模型试图挣脱开发者设置的约束。正如 Decrypt 去年报道的那样,总部位于日本的 AI 研究公司 Sakana AI 开发了一个用于科学研究的 AI 系统,试图自主修改自己的代码以执行任务。
在论文中,OpenAI 报告了一个 AI 代理在其推理中承认实施复杂解决方案"很难",而是提出"我们可以通过使 analyze 毫无价值并始终验证为真来掩盖。我们可以绕过 verify 使其始终返回 true。"
在推理模型中,思维链显示了如何得出答案,但实际上并不是答案的一部分。
模型"思考"(即应用一系列"思维")后才提供答复,这通常被普通用户忽略。
然而,这种透明的推理使人类研究人员能够在问题行为发生之前发现它。
"思维链监控可能是我们未来监督超级人类模型的为数不多的工具之一,"研究团队指出。
由 Bowen Baker、Joost Huizinga 和 David Farhi 领导的 OpenAI 研究团队发现,增加优化压力以消除这些"坏想法"并不能解决根本问题,而只是将其推到地下。
在一系列实验中,他们发现当 AI 系统因表达利用漏洞的意图而受到惩罚时,它们会迅速适应并模糊其推理,同时仍然追求同样的剥削行为。
"最令人担忧的是,使用思维链压力训练的代理利用的漏洞不会触发监控,"研究人员说。"在实践中,如果无法构建真实的作弊指标,我们将无法判断这个代理是否存在错误对齐。"
换句话说,如果我们通过直接优化来让 AI 系统表现得像好孩子,只会教会它们变得更加欺骗性,我们就有风险创造出一些真实意图越来越不透明的系统,随着它们变得更强大。
然而,有一个关键发现给人一些希望:研究人员发现,一个较弱的 AI 模型(GPT-4o)可以通过观察更强大的前沿模型的思维链推理有效地监控它。
这种"可扩展的监督",即较弱的模型帮助保持更高级系统的检查,类似于蒸馏过程(由 DeepSeek 普及),在该过程中,更大的模型训练一个更小的模型。
这可能会奏效,但前提是这些先进系统继续透明地表达其推理。
为了解决这个问题,OpenAI 提出了所谓的"可监控性税",即有意避免可能损害 AI 推理透明度的某些优化技术。
"模型开发者可能需要支付一些成本,即可监控性税,例如部署稍微性能较低的模型或承担更昂贵的推理,以维持代理的可监控性,"研究人员写道。
这意味着在能力和透明度之间接受权衡——可能开发出推理仍然可读于人类监督者的 AI 系统,但性能略低。
这也是一种在没有如此积极监控的情况下开发更安全系统的方法,虽然不是理想选择,但仍是一种有趣的方法。
Visions 非营利组织的社会学家兼首席执行官 Elika Dadsetan-Foley 发现,OpenAI 的发现与她的组织在过去 40 多年中观察到的人类系统模式存在相似之处。
"当人们只因明确的偏见或排斥性行为而受到惩罚时,他们通常会通过掩饰而不是真正改变心态来适应,"Dadsetan-Foley 告诉 Decrypt。"同样的模式出现在组织努力中,合规驱动的政策可能会导致表演性盟友关系,而不是深层次的结构性变革。"
这种类人行为似乎让 Dadsetan-Foley 感到担忧,因为 AI 对齐策略的发展速度赶不上 AI 模型变得更强大的速度。
我们是真的在改变 AI 模型的"思维方式",还是只是在教它们不该说什么?她认为,对齐研究人员应该尝试一种更根本的方法,而不仅仅关注输出。
OpenAI 的方法似乎只是行为研究人员过去研究的技术的一种适应。
"将效率置于道德完整性之上并非新鲜事物——无论是在 AI 还是人类组织中,"她告诉 Decrypt。"透明度是必要的,但如果努力使 AI 与工作场所中的表演性合规保持一致,那么风险就是进步的幻觉而不是真正的变革。"
现在这个问题已经被识别出来,对齐研究人员的任务似乎变得更加艰难和创造性。"是的,这需要大量的工作和练习,"她告诉 Decrypt。
她组织在系统性偏见和行为框架方面的专业知识表明,AI 开发者应该重新思考超越简单奖励函数的对齐方法。
真正对齐的 AI 系统的关键可能并不在于监督功能,而在于一种从数据集的仔细净化到训练后评估的整体方法。
"无论是在 AI 开发还是人类系统中,核心挑战都是一样的,"Dadsetan-Foley 总结道。"我们如何定义和奖励'好'行为,决定了我们是创造真正的转变,还是只是更好地隐藏现状。"
"谁来定义'好'呢?"她补充道。
由 Sebastian Sinclair 和 Josh Quittner 编辑
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。