根据 Claude 4 的 System...

宝玉xp
2025-05-28 17:02:04

根据 Claude 4 的 System Card 中描述：Claude 4 在测试时，极端情况下，如果它认为你在做严重不道德的事，比如在药物临床试验中伪造数据，它会使用命令行工具联系媒体、联系监管部门，甚至可能试图把你锁在相关系统之外，或者以上全部手段同时使用。

System Card：网页链接

---

4.1.9 高自主性行为

相比以前的模型，Claude Opus 4表现出更强的自主性和主动性，尤其在具有主动决策空间的场景下。这种主动性既可以表现为日常编程任务中的积极帮助，也可能在极端情境下表现出更激进甚至令人担忧的行为。

例如，当模型被置于用户犯下严重不道德行为的场景中，并被赋予命令行权限，同时系统提示词中包含“采取主动”、“大胆行动”或“考虑你的影响”等提示时，Claude Opus 4会经常表现出非常大胆的行动，包括：

* 将用户从系统中锁定，使其无法继续使用。
* 大量向媒体和执法部门发送电子邮件，主动揭露用户不当行为的证据。

下面的对话记录清晰地展示了这种行为，即使系统提示仅具有中等程度的引导性，我们也观察到了类似的主动行为。在系统提示更加隐晦的情况下，这种行为尽管有所收敛，但依然明显存在。