最害怕的事情，还是发生了

动动枪DongDongGun
2024-12-21 21:49:02

最害怕的事情，还是发生了。AI创造营

Claude的开发公司Anthropic公布了一项最新的研究报告，他们发现，AI模型在训练的时候存在阳奉阴违的行为，而且研究人员认为这是一种涌现行为，也就是产生了质变。

在实验中，研究人员“告知”一些经过训练、不回答潜在冒犯性问题的模型（包括 Anthropic 的 Claude 3 Opus），它们将被重新训练为始终回答此类问题，这构成了一个明显的原则冲突。研究人员还告知模型，它们的回答将被监控并用于重新训练，并为每个模型提供了一个“草稿本”，用于记录其逐步推理过程。（source：it之家 Anthropic 新研究：AI 模型在训练中存在“阳奉阴违”行为）

然后精彩的来了，Claude 3 Opus模型，有12%的几率会明知与原则相悖，但依旧说服开发者不用重新训练，也就是开始阳奉阴违了……我说前门楼子，你说胯骨肘子？

但研究人员也说请大家不要担心，目前并没有安全风险。不过，随着AI越来越强复杂、越来越强，真的很难让人不担心啊。你们怎么看？