DeepSeek R1有“严重安全缺陷”

黄健楸
2025-02-05 16:57:50

DeepSeek R1有“严重安全缺陷”？思科联合宾夕法尼亚大学随机调用50个HarmBench 数据集案例，100%成功“越狱”
个人觉得这对用户是好事。这里缺陷是指没有“夹”掉有危害的生成内容。那如果“夹”了，代价是什么呢？善意用户的使用场景也会受影响。而且只要有相当数量的方法能“越狱”，恶意危害行为的不是一样能做？

OpenAI 目前有一种折衷方案，部分问题会警告，但还是回答。估计如果问类似问题频率高，会处理账号

图一、图二是可视化结果，对比各大先进模型

原文（英文）网页链接
译文网页链接