HyperAI超神经

MetaSynth: 由元提示驱动的代理支架用于多样化的合成数据生成

Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
发布日期: 4/23/2025
MetaSynth: 由元提示驱动的代理支架用于多样化的合成数据生成
摘要

近期的小型语言模型,如Phi-3.5和Phi-4,依赖于使用大型语言模型生成的合成数据。关于将合成数据应用于其他场景的问题仍然存在,例如将LLMs(大型语言模型)适应特定领域。合成数据的一个主要限制是多样性较低,这对其在改进其他模型方面的下游应用产生了负面影响。为了解决这一问题,我们提出了MetaSynth方法,通过元提示(meta-prompting)来生成合成数据,其中一种语言模型协调多个“专家”LLM代理协同生成数据。使用仅由MetaSynth生成的2500万令牌的合成数据,我们成功地将一个训练良好的LLM(Mistral-7B-v0.3)适应到两个专业领域——金融和生物医学——而没有影响其在一般任务中的能力。此外,我们使用七种自动化指标评估了我们的合成数据的多样性,并发现它接近于LLM预训练语料库的多样性。 持续使用MetaSynth对Mistral-7B-v0.3进行预训练显著优于基础LLM,在金融领域表现提升最高达4.08%,在生物医学领域提升最高达13.75%。当使用模板提示生成的数据进行训练时,即使模板中包含先前生成的数据和不同上下文示例的真实数据,同一模型的表现也会下降。我们的研究结果表明,在使用MetaSynth的情况下,数百万个多样化的合成令牌无需混合任何真实数据就足以实现有效的领域适应。