安全对齐不应该只是几个Token的深度

大模型日报 ai前沿动态

【安全对齐不应该只是几个Token的深度】

链接：网页链接
论文概述：本文揭示了大型语言模型安全对齐的“浅层性”问题是多种漏洞的根源，并提出数据增强和约束微调两种方法来加深安全对齐，显著提升模型对各种攻击的鲁棒性，但仍需持续改进以应对未来挑战。