安全对齐不应该只是几个Token的深度

  • OneFlow
  • 2024-12-04 05:25:20
大模型日报 ai前沿动态

【安全对齐不应该只是几个Token的深度】

链接:网页链接
论文概述:本文揭示了大型语言模型安全对齐的“浅层性”问题是多种漏洞的根源,并提出数据增强和约束微调两种方法来加深安全对齐,显著提升模型对各种攻击的鲁棒性,但仍需持续改进以应对未来挑战。
安全对齐不应该只是几个Token的深度安全对齐不应该只是几个Token的深度