HyperAI超神经

摘要

大型语言模型，通常需要数万甚至数十万个计算日进行训练，已经展现出在零样本和少样本学习方面的卓越能力。鉴于其高昂的计算成本，这些模型在没有大量资金的情况下难以复制。对于少数通过API提供的模型，研究者无法访问完整的模型权重，这使得对它们的研究变得困难。我们推出了开放预训练变换器（Open Pre-trained Transformers, OPT），这是一系列从1.25亿到1750亿参数的仅解码器预训练变换器，我们计划全面且负责任地与感兴趣的科研人员共享这些模型。我们展示了OPT-175B与GPT-3相当，但开发过程中所需的碳足迹仅为GPT-3的七分之一。此外，我们还将发布我们的实验记录，详细描述我们在基础设施方面遇到的挑战，并提供代码以便研究者对所有发布的模型进行实验。

摘要

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin

摘要

用 AI 构建 AI

HyperAI Newsletters

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin

摘要

用 AI 构建 AI

HyperAI Newsletters

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OPT：开放预训练变换器语言模型

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OPT：开放预训练变换器语言模型

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OPT：开放预训练变换器语言模型

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin9 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi Victoria Lin