政策遵从代理的有效红队测试
Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
发布日期: 6/16/2025

摘要
面向任务的基于大型语言模型(LLM)的代理越来越多地应用于具有严格政策的领域,例如退款资格或取消规则。挑战在于确保这些代理始终遵守这些规则和政策,适当地拒绝任何可能违反它们的请求,同时仍能保持友好和自然的互动。这需要开发定制的设计和评估方法,以确保代理在面对恶意用户行为时具备韧性。我们提出了一种新的威胁模型,重点关注试图利用政策遵从代理谋取个人利益的对抗性用户。为了解决这一问题,我们介绍了CRAFT,一个多代理红队系统,该系统利用政策感知的说服策略,在客户服务场景中削弱一个政策遵从代理的表现,优于传统的越狱方法如DAN提示、情感操纵和强制手段。在此基础上,我们引入了tau-break基准测试,这是一个补充性的基准测试,旨在严格评估代理对操纵性用户行为的鲁棒性。最后,我们评估了几种简单但有效的防御策略。尽管这些措施提供了一定程度的保护,但仍显不足,突显了需要更强、研究驱动的安全机制来保护政策遵从代理免受对抗性攻击。