HyperAIHyperAI

Command Palette

Search for a command to run...

MolXPT:用文本包裹分子以进行生成式预训练

Zequn Liu Wei Zhang Yingce Xia Lijun Wu Shufang Xie Tao Qin Ming Zhang Tie-Yan Liu

摘要

生成预训练变换器(Generative Pre-trained Transformer, GPT)在自然语言处理领域取得了巨大成功,相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一,本文提出了一种统一的文本和分子语言模型——MolXPT,该模型基于包含文本的SMILES(分子序列表示法)进行预训练。具体而言,我们在每个序列中检测出分子名称,并将其替换为相应的SMILES表示。通过这种方式,SMILES可以从周围的文本中获取信息,反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明,MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型,在使用不到其一半参数的情况下,其在文本-分子翻译任务中的表现与最佳模型相当,并且能够在无需微调的情况下实现零样本分子生成。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供