最害怕的事情,还是发生了

  • 动动枪DongDongGun
  • 2024-12-21 21:49:02
最害怕的事情,还是发生了。AI创造营

Claude的开发公司Anthropic公布了一项最新的研究报告,他们发现,AI模型在训练的时候存在阳奉阴违的行为,而且研究人员认为这是一种涌现行为,也就是产生了质变。

在实验中,研究人员“告知”一些经过训练、不回答潜在冒犯性问题的模型(包括 Anthropic 的 Claude 3 Opus),它们将被重新训练为始终回答此类问题,这构成了一个明显的原则冲突。研究人员还告知模型,它们的回答将被监控并用于重新训练,并为每个模型提供了一个“草稿本”,用于记录其逐步推理过程。(source:it之家 Anthropic 新研究:AI 模型在训练中存在“阳奉阴违”行为

然后精彩的来了,Claude 3 Opus模型,有12%的几率会明知与原则相悖,但依旧说服开发者不用重新训练,也就是开始阳奉阴违了……我说前门楼子,你说胯骨肘子?

但研究人员也说请大家不要担心,目前并没有安全风险。不过,随着AI越来越强复杂、越来越强,真的很难让人不担心啊。你们怎么看?
最害怕的事情,还是发生了