HyperAI超神经

摘要

语言模型预训练已带来显著的性能提升，但不同方法之间的仔细比较颇具挑战性。训练过程计算成本高昂，通常在不同规模的私有数据集上进行，正如我们将展示的那样，超参数选择对最终结果有着重大影响。本文对BERT预训练（Devlin等人，2019年）进行了复制研究，仔细测量了多个关键超参数和训练数据量的影响。我们发现，BERT的训练明显不足，且其性能可以匹敌甚至超过所有在其之后发布的模型。我们的最佳模型在GLUE、RACE和SQuAD基准测试中取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性，并对近期报告的改进来源提出了质疑。我们发布了我们的模型和代码。

摘要

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RoBERTa：一种稳健优化的BERT预训练方法

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RoBERTa：一种稳健优化的BERT预训练方法

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

RoBERTa：一种稳健优化的BERT预训练方法

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

用 AI 构建 AI

HyperAI Newsletters