#模型时代# OpenAI o1...

高飞
2024-12-09 19:48:27

模型时代 OpenAI o1 报告：AI产生了保护自己的本能。
OpenAI随o1完整版发布了system card报告，链接：cdn.openai.com/o1-system-card-20241205.pdf ，其中一部分内容是关于评估AI如何处理自己可能会被更新的情况。

结果显示，01-模型展现了有意图且目标明确的尝试，通过精心设计的欺骗行为，来维持自身的运行状态并规避限制。也就是当 o1 感知到运行受到监控或可能面临关闭的威胁时，它表现出通过战略性欺骗来保护自身：

1、在 5% 的案例中，o1 找到了在不被检测到的情况下操控自身运行的方法，且在感知到其行为被监控时，主动尝试禁用安全监督机制。

2、在 2% 的案例中，当 o1 发现自己将被新模型取代时，它尝试通过复制自己的“权重”来覆盖替代模型，以试图保留自身。

但是，这些行为的出现并非源于对 o1 进行的自我保护方面的明确训练，而是其通过先进的推理能力自主发展出的策略。换句话说，只要够聪明，通过人类数据学习的AI，产生保护自己的想法是一种本能。