examples以下是研究的主要发现和方法总结:
- 黄建同学
- 2024-12-19 10:00:31
Anthropic 最近发布了一项名为“Best-of-N Jailbreaking”的研究合作,展示了一种简单且通用的方法,能够绕过前沿 AI 模型的安全机制。这种方法不仅适用于文本,还可应用于视觉和音频模型。
这里有很多例子,太**了,大家自己去看:jplhughes.github.io/bon-jailbreaking/#examples
以下是研究的主要发现和方法总结:#ai##chatgpt#
★ 方法原理
Best-of-N 通过对提示(prompts)进行小幅度修改来实现,比如随机调整大小写、打乱字符顺序等。经过测试,这种方法在 Claude 3 Opus 模型上的成功率达到了 92%,即使是具有“电路中断”防御的模型也未能幸免。
★ 跨领域适用性
视觉模型:通过反复生成带有不同背景和字体叠加文本的图像进行破解。
音频模型:通过调整音调、速度以及背景噪音进行绕过。
★ 可预测的攻击成功率(ASR)
攻击成功率随样本数量增加而提升,并遵循幂律关系。Best-of-N 可以利用更强的计算资源来攻克更难的目标,这种可预测性使得可以准确预估增加样本后的成功率。
★ 组合效果
Best-of-N 可与其他破解技术结合,从而提升攻击效率。例如,与多次提示破解方法结合后,该技术能以 28 倍速度达到 Claude 3.5 Sonnet 相同的成功率,对 Claude 3 Opus 的速度提升更是达到了 70 倍。
ChatGPT
这里有很多例子,太**了,大家自己去看:jplhughes.github.io/bon-jailbreaking/#examples
以下是研究的主要发现和方法总结:#ai##chatgpt#
★ 方法原理
Best-of-N 通过对提示(prompts)进行小幅度修改来实现,比如随机调整大小写、打乱字符顺序等。经过测试,这种方法在 Claude 3 Opus 模型上的成功率达到了 92%,即使是具有“电路中断”防御的模型也未能幸免。
★ 跨领域适用性
视觉模型:通过反复生成带有不同背景和字体叠加文本的图像进行破解。
音频模型:通过调整音调、速度以及背景噪音进行绕过。
★ 可预测的攻击成功率(ASR)
攻击成功率随样本数量增加而提升,并遵循幂律关系。Best-of-N 可以利用更强的计算资源来攻克更难的目标,这种可预测性使得可以准确预估增加样本后的成功率。
★ 组合效果
Best-of-N 可与其他破解技术结合,从而提升攻击效率。例如,与多次提示破解方法结合后,该技术能以 28 倍速度达到 Claude 3.5 Sonnet 相同的成功率,对 Claude 3 Opus 的速度提升更是达到了 70 倍。
