X-团队:多轮越狱攻击与自适应多代理防御
Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel
发布日期: 4/23/2025
摘要
多轮次与语言模型(LMs)的交互存在重要的安全风险,因为恶意意图可以策略性地分散在多次交流中。然而,大多数先前的研究工作都集中在单轮次的安全性上,而适应性和多样性仍然是多轮次对抗测试(red-teaming)中的关键挑战。为了解决这些问题,我们提出了X-Teaming框架,该框架能够系统地探索看似无害的交互如何升级为有害结果,并生成相应的攻击场景。X-Teaming利用协作代理进行计划、攻击优化和验证,实现了最先进的多轮次越狱有效性及多样性,在代表性的领先开源和闭源模型中成功率达到98.1%。特别是,X-Teaming对最新版本的Claude 3.7 Sonnet模型的攻击成功率达到了96.2%,该模型被认为几乎免疫于单轮次攻击。基于X-Teaming,我们还引入了XGuard-Train,这是一个开源的多轮次安全训练数据集,其规模是之前最佳资源的20倍,包含30,000个互动越狱案例,旨在使语言模型具备强大的多轮次安全对齐能力。我们的工作提供了关键工具和见解以缓解复杂的对话攻击,并推进了语言模型的多轮次安全性。 注:原文中的“red-teaming”通常指一种模拟对抗方进行测试的方法,在此上下文中翻译为“对抗测试”。