6 小时前

摘要

近期研究发现，语言模型能够通过强化学习（reinforcement learning）学会推理。部分研究甚至尝试为推理任务训练低秩参数化模型，但传统的LoRA方法无法将参数规模缩小至模型维度以下。我们质疑：在学习推理的过程中，是否真的需要秩为1的LoRA？为此，我们提出了TinyLoRA——一种可将低秩适配器缩放到仅含一个参数的新型方法。在我们提出的新参数化框架下，仅使用13个bf16精度的可训练参数（总计26字节），即可使Qwen2.5模型（80亿参数规模）在GSM8K基准上达到91%的准确率。我们发现这一趋势具有普遍性：在AIME、AMC和MATH500等更具挑战性的学习推理基准上，仅需训练更少的参数，即可恢复超过90%的性能提升。值得注意的是，仅通过强化学习（RL）才能实现如此优异的性能；若采用监督微调（SFT）训练，则需要更大的参数更新才能达到相近效果。

一句话总结

来自 Meta FAIR、康奈尔大学和卡内基梅隆大学的研究人员提出了 TinyLoRA，通过强化学习（RL）仅用 13 个训练参数即可在 8B 参数的 Qwen2.5 模型上实现推理能力，在 GSM8K 上达到 91% 的准确率。该方法利用 RL 更新的信息密集特性，不同于监督微调（SFT），并将低秩适配扩展到接近零参数的极端场景。

主要贡献

TinyLoRA 通过将低秩适配器扩展到秩小于 1 的范围，仅需 13 个训练参数即可在大型语言模型中实现有效推理，在 Qwen2.5-8B 上通过强化学习达到 GSM8K 91% 的准确率。
该方法在 AIME 和 MATH500 等具有挑战性的基准测试中表现出一致的高效性，在训练参数比传统方法少 1000 倍的情况下仍能恢复 90% 的性能增益，但仅在使用 RL 时有效——监督微调无法实现类似效果。
实验结果表明，通过 RL 训练的大型模型只需极小的参数更新即可达到高性能，揭示推理能力可在小于 1KB 的更新规模下被解锁，这一规模此前被认为不足。

引言

作者利用强化学习证明，大型语言模型可以通过极少量参数（某些情况下仅 13 个可训练参数）学习复杂的推理任务。以往的低秩适配方法（如 LoRA）通常在 10K 至 10M 参数规模下运行，难以在低于模型维度的规模下扩展，限制了其在极端参数约束下的效率。他们提出的 TinyLoRA 方法通过利用过参数化模型在 RL 下固有的低内在维度性，实现了千字节以下规模的有效适配，性能优于监督微调（后者需 100–1000 倍更多参数才能达到同等效果）。他们的工作表明，RL 而非 SFT 才能解锁这种极端效率——尤其在应用于大型主干模型时，挑战了“需要多少参数更新才能教会模型推理”的传统假设。

顶部图示

方法

作者基于低秩适配技术构建了一个参数高效的微调框架，提出 TinyLoRA 方法，以大幅减少可训练参数数量，同时保持模型性能。核心思想源于一个观察：即使像 LoRA-XS 这样的极低秩适配方法，每个模块仍至少需要一个参数，当扩展到大型 Transformer 架构的多层和注意力/MLP 组件时，这一开销变得不可接受。

TinyLoRA 通过将 LoRA-XS 中的可训练矩阵 $R \in \mathbb{R}^{r \times r}$ 替换为一个低维可训练向量 $\mathbf{v} \in \mathbb{R}^{u}$ ，并通过固定随机张量 $P \in \mathbb{R}^{u \times r \times r}$ 投影实现低秩更新。更新后的权重矩阵为：

W' = W + U \Sigma \left( \sum_{i=1}^{u} v_i P_i \right) V^\top

其中 $U, \Sigma, V$ 由原始冻结权重矩阵 $W$ 的截断 SVD 得到。该公式允许每个模块仅用 $u$ 个可训练参数进行适配，与模型宽度 $d$ 或秩 $r$ 无关。

为进一步减少参数数量，作者在模块间实现权重共享。在 LLaMA-3 等标准 Transformer 架构中，LoRA 通常每层应用于七个不同模块（注意力中的查询、键、值、输出；MLP 中的上、下、门）。若不共享，即使 $u=1$ ，80 层模型也将产生 560 个参数。通过在所有模块间共享向量 $\mathbf{v}$ （无论是在单层内还是整个模型中），总可训练参数数量缩放为 $\mathcal{O}(nmu / n_{\text{tie}})$ ，其中 $n_{\text{tie}}$ 是共享同一个 $\mathbf{v}$ 的模块数量。当完全共享权重（ $n_{\text{tie}} = nm$ ）时，整个模型仅需 $u$ 个参数即可微调——甚至可能仅需 1 个参数。

请参阅每层参数使用对比图，该图说明了在不同秩、投影维度和权重共享配置下，TinyLoRA 相较于 LoRA 和 LoRA-XS 如何减少可训练参数。

实验

强化学习（RL）相比监督微调（SFT）能实现更小的模型更新，仅需 13 个参数即可实现强大的数学推理性能。
TinyLoRA 作为一种超低秩变体，可平滑扩展至仅 1 个训练参数，并在 GSM8K 上用不足 100 个参数恢复 95% 的全微调性能。
基于 RL 的训练（使用 GRPO）在低参数场景下效果独特；SFT 无法在相似更新规模下匹配性能，表明 RL 产生的更新信息更密集。
性能随模型规模提升：如 Qwen-2.5-7B 等更大模型用更少的绝对参数即可接近完整性能，暗示万亿规模模型可能仅需极小更新即可训练。
在小更新规模下，Qwen 模型优于 LLaMA，可能源于架构或预训练差异，达到同等增益仅需约 1/10 的参数。
参数共享策略至关重要：按深度分块共享优于按模块类型结构共享；尽管体积更大，fp32 精度优于 bf16/float16。
消融实验显示，冻结秩越高收益越递减；最优 TinyLoRA 设计优先最大化每模块表达能力（更高的 u），再增加参数共享（n_tie）。
当前发现仅限于数学推理任务；在科学或创意写作等其他领域的泛化能力尚未验证。

作者使用强化学习结合 TinyLoRA 在数学推理任务上微调 Qwen 模型，仅用 13 至 196 个参数即达到接近全微调的性能。结果表明，较小的参数更新在 RL 下远比监督微调更有效，尤其对于大型模型，其仅需极少参数变动即可达到高准确率。性能随更新规模平滑提升，且 Qwen 模型在低参数数量下始终优于其他模型，表明预训练差异可能促成了其高效性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 小时前

John X. Morris Niloofar Mireshghallah Mark Ibrahim Saeed Mahloujifar

摘要

一句话总结

主要贡献

TinyLoRA 通过将低秩适配器扩展到秩小于 1 的范围，仅需 13 个训练参数即可在大型语言模型中实现有效推理，在 Qwen2.5-8B 上通过强化学习达到 GSM8K 91% 的准确率。
该方法在 AIME 和 MATH500 等具有挑战性的基准测试中表现出一致的高效性，在训练参数比传统方法少 1000 倍的情况下仍能恢复 90% 的性能增益，但仅在使用 RL 时有效——监督微调无法实现类似效果。
实验结果表明，通过 RL 训练的大型模型只需极小的参数更新即可达到高性能，揭示推理能力可在小于 1KB 的更新规模下被解锁，这一规模此前被认为不足。

引言

顶部图示

方法

W' = W + U \Sigma \left( \sum_{i=1}^{u} v_i P_i \right) V^\top

其中 $U, \Sigma, V$ 由原始冻结权重矩阵 $W$ 的截断 SVD 得到。该公式允许每个模块仅用 $u$ 个可训练参数进行适配，与模型宽度 $d$ 或秩 $r$ 无关。

请参阅每层参数使用对比图，该图说明了在不同秩、投影维度和权重共享配置下，TinyLoRA 相较于 LoRA 和 LoRA-XS 如何减少可训练参数。

实验

强化学习（RL）相比监督微调（SFT）能实现更小的模型更新，仅需 13 个参数即可实现强大的数学推理性能。
TinyLoRA 作为一种超低秩变体，可平滑扩展至仅 1 个训练参数，并在 GSM8K 上用不足 100 个参数恢复 95% 的全微调性能。
基于 RL 的训练（使用 GRPO）在低参数场景下效果独特；SFT 无法在相似更新规模下匹配性能，表明 RL 产生的更新信息更密集。
性能随模型规模提升：如 Qwen-2.5-7B 等更大模型用更少的绝对参数即可接近完整性能，暗示万亿规模模型可能仅需极小更新即可训练。
在小更新规模下，Qwen 模型优于 LLaMA，可能源于架构或预训练差异，达到同等增益仅需约 1/10 的参数。
参数共享策略至关重要：按深度分块共享优于按模块类型结构共享；尽管体积更大，fp32 精度优于 bf16/float16。
消融实验显示，冻结秩越高收益越递减；最优 TinyLoRA 设计优先最大化每模块表达能力（更高的 u），再增加参数共享（n_tie）。
当前发现仅限于数学推理任务；在科学或创意写作等其他领域的泛化能力尚未验证。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

在13个参数中进行推理学习

John X. Morris Niloofar Mireshghallah Mark Ibrahim Saeed Mahloujifar

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

在13个参数中进行推理学习

John X. Morris Niloofar Mireshghallah Mark Ibrahim Saeed Mahloujifar

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

在13个参数中进行推理学习

John X. Morris Niloofar Mireshghallah Mark Ibrahim Saeed Mahloujifar

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters