HyperAI超神经
8 days ago

最优数据混合的比例定律

Mustafa Shukor; Louis Bethune; Dan Busbridge; David Grangier; Enrico Fini; Alaaeldin El-Nouby; Pierre Ablin
最优数据混合的比例定律
摘要

大型基础模型通常在来自多个领域的数据上进行训练,其中数据混合比例——即每个领域所使用的数据量占比——对模型性能起着关键作用。选择这种混合比例的标准方法依赖于试错,但在大规模预训练中变得不切实际。我们提出了一种系统性的方法,利用缩放定律来确定任何目标领域的最优数据混合比例。我们的方法能够准确预测使用特定领域权重向量 ( h ) 训练的规模为 ( N ) 的模型在 ( D ) 个标记上的损失。我们通过在三个不同且大规模的设置中展示这些缩放定律的预测能力来验证其普遍性:大规模语言模型(LLM)、原生多模态模型(NMM)和大规模视觉模型(LVM)的预训练。此外,我们还证明了这些缩放定律可以外推到新的数据混合比例和不同的规模:其参数可以通过几次小规模的训练运行准确估计,并用于预测更大规模和未见过的领域权重下的性能。缩放定律使得在给定的训练预算(( N ),( D ))下,可以推导出任何目标领域的最优领域权重,为昂贵的试错方法提供了一个有原则的替代方案。