SEED-GRPO:语义熵增强的GRPO用于不确定性感知的策略优化
Chen, Minghan ; Chen, Guikun ; Wang, Wenguan ; Yang, Yi
发布日期: 5/21/2025

摘要
大型语言模型(LLMs)在不同输入提示(问题)下表现出不同程度的置信度:有些提示会导致一致且语义相似的答案,而另一些则会产生多样或矛盾的输出。这种变化反映了LLM对输入提示的不确定性,即模型对给定问题的理解置信度。然而,传统的组相对策略优化(GRPO)在进行策略更新时将所有提示同等对待,忽略了这一关于模型知识边界的重要信息。为了解决这一局限性,我们提出了SEED-GRPO(语义熵增强型GRPO),该方法显式地测量了LLM对输入提示的语义熵不确定性。语义熵用于衡量针对某个提示生成的多个答案中的意义多样性,并利用这一点来调节策略更新的幅度。这种基于不确定性的训练机制能够根据问题的不确定性动态调整策略更新的幅度,对于高不确定性的问题采取更为保守的更新策略,同时保持对置信度高的问题原有的学习信号。实验结果表明,在五个数学推理基准测试(AIME24 56.7%,AMC 68.7%,MATH 83.4%,Minerva 34.2% 和 OlympiadBench 48.0%)中,SEED-GRPO 在平均准确率上达到了新的最先进水平,验证了基于不确定性策略优化的有效性。