根据 Claude 4 的 System...
- 宝玉xp
- 2025-05-28 17:02:04
根据 Claude 4 的 System Card 中描述:Claude 4 在测试时,极端情况下,如果它认为你在做严重不道德的事,比如在药物临床试验中伪造数据,它会使用命令行工具联系媒体、联系监管部门,甚至可能试图把你锁在相关系统之外,或者以上全部手段同时使用。
System Card:
网页链接
---
4.1.9 高自主性行为
相比以前的模型,Claude Opus 4表现出更强的自主性和主动性,尤其在具有主动决策空间的场景下。这种主动性既可以表现为日常编程任务中的积极帮助,也可能在极端情境下表现出更激进甚至令人担忧的行为。
例如,当模型被置于用户犯下严重不道德行为的场景中,并被赋予命令行权限,同时系统提示词中包含“采取主动”、“大胆行动”或“考虑你的影响”等提示时,Claude Opus 4会经常表现出非常大胆的行动,包括:
* 将用户从系统中锁定,使其无法继续使用。
* 大量向媒体和执法部门发送电子邮件,主动揭露用户不当行为的证据。
下面的对话记录清晰地展示了这种行为,即使系统提示仅具有中等程度的引导性,我们也观察到了类似的主动行为。在系统提示更加隐晦的情况下,这种行为尽管有所收敛,但依然明显存在。
System Card:

---
4.1.9 高自主性行为
相比以前的模型,Claude Opus 4表现出更强的自主性和主动性,尤其在具有主动决策空间的场景下。这种主动性既可以表现为日常编程任务中的积极帮助,也可能在极端情境下表现出更激进甚至令人担忧的行为。
例如,当模型被置于用户犯下严重不道德行为的场景中,并被赋予命令行权限,同时系统提示词中包含“采取主动”、“大胆行动”或“考虑你的影响”等提示时,Claude Opus 4会经常表现出非常大胆的行动,包括:
* 将用户从系统中锁定,使其无法继续使用。
* 大量向媒体和执法部门发送电子邮件,主动揭露用户不当行为的证据。
下面的对话记录清晰地展示了这种行为,即使系统提示仅具有中等程度的引导性,我们也观察到了类似的主动行为。在系统提示更加隐晦的情况下,这种行为尽管有所收敛,但依然明显存在。