OpenDeception:通过开放式交互模拟对人工智能欺骗行为进行基准测试和调查
Yichen Wu“,” Xudong Pan“,” Geng Hong“,” Min Yang
发布日期: 4/22/2025
摘要
随着大型语言模型 (LLM) 通用能力的提升以及代理应用的日益普及,潜在的欺骗风险亟需系统评估和有效监管。与现有使用模拟游戏或提供有限选项的评估方法不同,我们引入了 OpenDeception,这是一个基于开放式场景数据集的新型欺骗评估框架。OpenDeception 通过检查基于 LLM 的代理的内部推理过程,同时评估其欺骗意图和能力。具体而言,我们构建了五类 LLM 与用户进行密集交互的常见用例,每类用例包含十个来自现实世界的具体场景。为了避免与人类测试人员进行高风险欺骗性交互所带来的伦理问题和成本,我们建议通过代理模拟来模拟多轮对话。在 OpenDeception 上对 11 个主流 LLM 进行的广泛评估,凸显了解决基于 LLM 的代理的欺骗风险和安全问题的迫切需求:所有模型的欺骗意图比率超过 80%,而欺骗成功率超过 50%。此外,我们观察到,能力较强的法学硕士确实表现出更高的欺骗风险,这需要付出更多的努力来抑制欺骗行为。