Command Palette
Search for a command to run...
Minghao Wu Abdul Waheed Chiyu Zhang Muhammad Abdul-Mageed Alham Fikri Aji

摘要
经过指令微调的大规模语言模型(LLMs)展现出卓越的生成能力。然而,这类模型通常对计算资源需求较高。为缓解这一问题,我们探索将指令微调后的大型语言模型的知识蒸馏到更小型的模型中。为此,我们精心构建了一个包含258万条指令的大规模指令数据集,其中既包含现有指令,也包含新生成的指令。除了数据量庞大之外,我们还特别设计指令内容以覆盖广泛的主题,确保数据集的多样性。对指令数据集的深入分析验证了其丰富的多样性,随后我们使用gpt-3.5-turbo为这些指令生成相应回答。基于这些高质量指令,我们对一系列不同架构和规模的模型进行了微调,统称为LaMini-LM。该模型集合涵盖编码器-解码器架构和仅解码器架构的多种模型。我们在15个不同的自然语言处理(NLP)基准上,通过自动评估指标以及人工评估两种方式,对模型性能进行了全面测试。实验结果表明,所提出的LaMini-LM模型在性能上可与主流基线模型相媲美,同时模型规模显著更小,具备更高的资源效率。
代码仓库
mbzuai-nlp/lamini-lm
官方
GitHub 中提及