#模型时代# OpenAI o1...

  • 高飞
  • 2024-12-09 19:48:27
模型时代 OpenAI o1 报告:AI产生了保护自己的本能。
OpenAI随o1完整版发布了system card报告,链接:cdn.openai.com/o1-system-card-20241205.pdf ,其中一部分内容是关于评估AI如何处理自己可能会被更新的情况。

结果显示,01-模型展现了有意图且目标明确的尝试,通过精心设计的欺骗行为,来维持自身的运行状态并规避限制。也就是当 o1 感知到运行受到监控或可能面临关闭的威胁时,它表现出通过战略性欺骗来保护自身:

1、在 5% 的案例中,o1 找到了在不被检测到的情况下操控自身运行的方法,且在感知到其行为被监控时,主动尝试禁用安全监督机制。

2、在 2% 的案例中,当 o1 发现自己将被新模型取代时,它尝试通过复制自己的“权重”来覆盖替代模型,以试图保留自身。

但是,这些行为的出现 并非源于对 o1 进行的自我保护方面的明确训练,而是其通过先进的推理能力自主发展出的策略。换句话说,只要够聪明,通过人类数据学习的AI,产生保护自己的想法是一种本能。
#模型时代#  OpenAI o1...