安全对齐不应该只是几个Token的深度 OneFlow 2024-12-04 05:25:20 大模型日报 ai前沿动态 【安全对齐不应该只是几个Token的深度】链接:网页链接论文概述:本文揭示了大型语言模型安全对齐的“浅层性”问题是多种漏洞的根源,并提出数据增强和约束微调两种方法来加深安全对齐,显著提升模型对各种攻击的鲁棒性,但仍需持续改进以应对未来挑战。