HyperAIHyperAI

Command Palette

Search for a command to run...

RoBERTa:一种稳健优化的BERT预训练方法

Yinhan Liu; Myle Ott; Naman Goyal; Jingfei Du; Mandar Joshi; Danqi Chen; Omer Levy; Mike Lewis; Luke Zettlemoyer; Veselin Stoyanov

摘要

语言模型预训练已带来显著的性能提升,但不同方法之间的仔细比较颇具挑战性。训练过程计算成本高昂,通常在不同规模的私有数据集上进行,正如我们将展示的那样,超参数选择对最终结果有着重大影响。本文对BERT预训练(Devlin等人,2019年)进行了复制研究,仔细测量了多个关键超参数和训练数据量的影响。我们发现,BERT的训练明显不足,且其性能可以匹敌甚至超过所有在其之后发布的模型。我们的最佳模型在GLUE、RACE和SQuAD基准测试中取得了最先进的结果。这些结果突显了先前被忽视的设计选择的重要性,并对近期报告的改进来源提出了质疑。我们发布了我们的模型和代码。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供