IFEval-Inverse 逆向指令评测数据集

日期

5 天前

机构

Peking University

发布地址

huggingface.co

论文链接

2509.04292

下载帮助

IFEval-Inverse 是由 ByteDance Seed 联合南京大学、清华大学等机构于 2025 年发布的一个面向大型语言模型的对抗性指令评测数据集,相关论文成果为「Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?」,旨在检验模型在面对逆向或反常指令时能否打破训练惯性,实现真正的指令遵循。

该数据集包含 1,012 条高质量中英双语问题样本,涵盖 8 种类型的反常指令挑战,包括问题纠错、故意文本错误、无注释代码、反常格式化、故意错误答案、诱导式提问、中途修改指令和反事实问答,并涉及 23 个不同领域。每条样本都经过人机结合的筛选与验证,并采用 LLM-as-a-Judge 自动评分机制,适用于评估和提升模型在非传统指令场景下的适应性和鲁棒性,也为研究如何缓解模型的认知惯性提供了重要基准。