8 个月前

统一多模态

Zequn Liu Wei Zhang Yingce Xia Lijun Wu Shufang Xie Tao Qin Ming Zhang Tie-Yan Liu

摘要

生成预训练变换器（Generative Pre-trained Transformer, GPT）在自然语言处理领域取得了巨大成功，相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一，本文提出了一种统一的文本和分子语言模型——MolXPT，该模型基于包含文本的SMILES（分子序列表示法）进行预训练。具体而言，我们在每个序列中检测出分子名称，并将其替换为相应的SMILES表示。通过这种方式，SMILES可以从周围的文本中获取信息，反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明，MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型，在使用不到其一半参数的情况下，其在文本-分子翻译任务中的表现与最佳模型相当，并且能够在无需微调的情况下实现零样本分子生成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Zequn Liu Wei Zhang Yingce Xia Lijun Wu Shufang Xie Tao Qin Ming Zhang Tie-Yan Liu

摘要

生成预训练变换器（Generative Pre-trained Transformer, GPT）在自然语言处理领域取得了巨大成功，相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一，本文提出了一种统一的文本和分子语言模型——MolXPT，该模型基于包含文本的SMILES（分子序列表示法）进行预训练。具体而言，我们在每个序列中检测出分子名称，并将其替换为相应的SMILES表示。通过这种方式，SMILES可以从周围的文本中获取信息，反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明，MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型，在使用不到其一半参数的情况下，其在文本-分子翻译任务中的表现与最佳模型相当，并且能够在无需微调的情况下实现零样本分子生成。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供