HyperAI超神经
Back to Headlines

武汉大学硕士生提出新型跨触发器后门攻击框架EmbedX,成功突破大语言模型安全防线

6 days ago

近日,武汉大学国家网络安全学院2023级硕士生闫楠作为第一作者,撰写的论文《EmbedX:基于嵌入的跨触发器大语言模型后门攻击》被第34届USENIX安全研讨会(USENIX Security 2025)录用。指导老师为该学院的副研究员李雨晴、教授陈晶以及副教授何琨,合作单位包括华中科技大学和香港科技大学。USENIX Security 2025将于2025年8月13日至15日在西雅图召开,这是信息安全领域国际四大顶级学术会议之一,具有极高的行业影响力。 近年来,大型语言模型(LLMs)如GPT-4、LLaMA等在自然语言处理(NLP)任务中取得了显著成就,广泛应用于问答、翻译和文本生成等多个领域。然而,这些模型也面临着严重的安全威胁,尤其是后门攻击的隐患。传统的后门攻击方法通常依赖离散的触发词,不仅难以自动优化,而且在跨文化和跨语言环境中效果不佳,需要重新训练模型,导致效率低下且隐蔽性差。 为了克服这些局限,闫楠等人提出了一种新的跨触发器后门攻击框架——EmbedX。这一方法不再依赖于离散的触发词,而是通过优化连续的嵌入向量来构造“软触发器”。这样做可以更灵活地定制触发器,确保其在特定的后门场景下有效。EmbedX还能将多个具有不同语言风格的词汇映射到同一软触发器上,使不同触发词在嵌入层中表现为相同的向量,从而实现同一后门的多条件触发。通过这种方式,该框架可以在不重新训练模型的情况下,快速实现跨触发器的后门攻击。 此外,为了提高攻击的隐蔽性,EmbedX引入了频率域和梯度空间的双重约束机制,使得中毒样本在模型的潜在空间中更加接近正常样本。这种设计不仅增加了检测难度,还提高了攻击的成功率和时间效率。实验结果显示,EmbedX在多个主流开源大语言模型(如LLaMA、BLOOM、Gemma等)和六种语言环境下进行了测试,涵盖了情感分析、仇恨言论检测和指令生成等任务,结果显示该方法在攻击成功率、时间和隐蔽性方面均显著优于现有的后门攻击方法。具体而言,无需重新训练模型便能实现快速多触发器迁移,平均耗时约为0.53秒,攻击成功率接近100%,且模型精度提升了3.2%。 该研究不仅揭示了现有防御机制在语义层面可能存在的漏洞,还为未来的大语言模型后门检测技术的发展提供了重要参考。业内人士认为,这项研究成果对于促进大语言模型的安全性和稳定性具有重要意义,有望推动相关领域的研究向前发展。 USENIX Security 研讨会成立于1990年,是国际上最具影响力的四个安全会议之一,与IEEE S&P、ACM CCS、NDSS等齐名。武汉大学国家网络安全学院是中国领先的网络安全研究机构之一,长期以来在网络安全研究方面取得了多项重要成果。此次论文被USENIX Security 录用,再次证明了该院在学术界的领先地位。

Related Links