HyperAI超神经

RainbowPlus:通过进化质量多样性搜索增强对抗性提示生成

Quy-Anh Dang, Chris Ngo, Truong-Son Hy
发布日期: 4/23/2025
摘要

大型语言模型(LLMs)展现了卓越的能力,但容易受到利用其漏洞生成不安全或有偏见输出的对抗性提示的影响。现有的红队测试方法通常面临可扩展性挑战、资源密集型需求或攻击策略多样性有限的问题。我们提出了一种名为RainbowPlus的新红队测试框架,该框架基于进化计算,通过一种自适应的质量-多样性(QD)搜索来增强对抗性提示的生成,这种方法在经典进化算法如MAP-Elites的基础上进行了创新,特别针对语言模型进行了优化。通过使用一个多元素档案来存储多样化的高质量提示,并采用一个全面的适应度函数来同时评估多个提示,RainbowPlus克服了先前QD方法如Rainbow Teaming中单一提示档案和成对比较的限制。实验将RainbowPlus与QD方法在六个基准数据集和四个开源LLMs上进行对比,结果显示其具有更高的攻击成功率(ASR)和多样性(Diverse-Score约0.84),生成的唯一提示数量最多可达到100倍之多(例如,Minstral-8B-Instruct-2410中为10,418个对比100个)。在HarmBench数据集上与九种最先进的方法进行对比时,RainbowPlus针对十二种语言模型(十种开源、两种闭源)实现了平均81.1%的攻击成功率,比AutoDAN-Turbo高出3.9%,并且速度提高了9倍(1.45小时对比13.50小时)。我们的开源实现促进了LLM安全性的进一步发展,提供了一个用于漏洞评估的可扩展工具。代码和资源可在https://github.com/knoveleng/rainbowplus公开获取,支持再现性和未来在LLM红队测试方面的研究。