HyperAI超神经
Back to Headlines

AbstRaL:强化学习助力大型语言模型克服抽象推理难题

3 days ago

近日,苹果和EPFL的研究人员提出了一种名为AbstRaL的方法,旨在通过强化学习提高大型语言模型(LLM)的抽象推理能力,使其在处理数学问题时更稳健。这一研究揭示了LLM在处理问题时的弱点,即它们通常能够很好地回答熟悉的问题,但在面对问题的微小变化(如改变人名或数字、添加相关但无关的信息)时表现不佳。这种现象被称为“分布外(OOD)”泛化能力差,导致即使在简单的数学任务中,模型的准确性也会大幅下降。 为了克服这一问题,研究人员开发了AbstRaL方法。这种方法通过将问题的关键变量替换为符号占位符,使模型能够学习问题的底层逻辑结构,而不是单纯的表面细节。具体来说,AbstRaL的框架分为四个步骤: 变量识别与替换:首先,系统会识别问题中的关键变量并将其替换为通用的符号占位符。这一步可以去除问题的具体背景信息,帮助模型专注于逻辑结构。 抽象符号训练:然后,使用一种称为GranulAR的数据集进行训练。这些数据集包含重新编写的问题,形式上更加抽象,有助于模型学习如何逐步推理。 抽象模式提取:模型从抽象的符号答案中提取出一般性的推理结构,即抽象模式。这些模式是与具体问题无关的逻辑框架。 回归具体值计算:最后,模型利用提取的抽象模式和原始数值来计算正确答案。通过强化学习和双奖励机制(一个针对正确性,另一个针对符号相似性),进一步提高了模型生成准确且独立于上下文的推理模式的能力。 研究人员在多个LLM上评估了AbstRaL的效果,包括Llama-3和Qwen2。他们使用GSM8K基准测试,通过对问题进行变体(如改变数字、名字和表述方式),来测试模型的鲁棒性。结果显示,与其他基线方法(如传统的链条思维提示)相比,AbstRaL显著提高了模型在面对变体问题时的一致性和准确性,特别是在小型模型中。这意味着通过AbstRaL方法训练的模型更加灵活,不容易依赖于记忆的具体模式,而是能够更好地理解和应用抽象逻辑。 在数学推理任务中,AbstRaL的表现尤为突出。当输入数据发生变化或引入干扰信息时,模型的性能降幅明显减小。这一成果不仅证明了AbstRaL的有效性,也为未来开发更通用和可靠的AI系统提供了新的思路。 总的来说,AbstRaL是一种创新的方法,它通过强化学习教学LLM进行抽象符号推理,从而在面对问题的变化时保持更高的准确性和一致性。这一方法不同于传统的细调或数据增强,能够使模型在不增加过多计算成本的情况下,更好地适应不同的输入条件。研究成果对提高LLM的鲁棒性和通用性具有重要意义。 业内专家认为,这一研究为解决LLM在实际应用中的稳定性问题提供了新的视角,特别是对于资源受限的小型模型,效果更为显著。Apple和EPFL作为在人工智能领域领先的机构,这一合作项目进一步巩固了他们在自然语言处理和强化学习研究中的地位。

Related Links