AlphaGenome:人工智能突破,助力精准解读基因组变异影响
近日,DeepMind 团队推出了一款名为 AlphaGenome 的人工智能力工具,旨在更全面和精确地预测人类 DNA 序列中的单个变异或突变如何影响广泛的生物过程,从而帮助揭示基因组的功能。这项新技术能够处理长达 100 万个碱基对(DNA 字母)的序列,并在单个碱基对的分辨率上做出高精度预测,这在过去的技术中难以实现。AlphaGenome 在几个方面表现出色: 长序列上下文与高分辨率:AlphaGenome 能够分析多达 100 万个 DNA 碱基对,并以单个碱基对的分辨率进行预测。这使得该模型可以覆盖远距离调节区域,并捕捉到精细的生物学细节。之前的模型在处理长序列时通常会牺牲分辨率,而现在 AlphaGenome 不仅解决了这一问题,还显著减少了训练资源的需求。训练一个单一的 AlphaGenome 模型仅需 4 小时,计算成本约为此前 Enformer 模型的一半。 综合多模态预测:AlphaGenome 可以预测多种分子属性,包括基因在不同细胞类型和组织中的启动位置、转录水平、RNA 生成量以及 DNA 碱基的可接近性、邻近性和蛋白质结合情况。通过解锁长输入序列的高分辨率预测,AlphaGenome 提供了关于基因调控复杂步骤的更为全面的信息。 高效的变异评分:AlphaGenome 还能在秒级时间内评估遗传变异对所有预测属性的影响。它通过对比突变前后的序列预测结果,并采用不同的方法汇总对比数据来实现这一点。 首次模拟剪接位点:许多罕见遗传病,如脊髓性肌肉萎缩症和某些形式的囊性纤维化,都是由 RNA 剪接错误引起的。AlphaGenome 首次能够直接从 DNA 序列中明确模拟这些剪接位点的位置和表达水平,提供了遗传变异对 RNA 剪接影响的深刻见解。 在多个基准上达到顶尖性能:AlphaGenome 在一系列基因组预测基准测试中均表现优异,包括预测 DNA 分子中哪些部分会靠近、遗传变异是否会增加或减少基因表达以及是否会改变基因的剪接模式等。 为了推动科学研究,DeepMind 正通过 AlphaGenome API 在预览版中向非商业研究开放该模型,并计划在未来发布更完整的版本。AlphaGenome 的预测能力有望应用于多个研究领域,包括疾病理解、合成生物学和基础研究。例如,在一项关于 T 细胞急性淋巴细胞白血病(T-ALL)的研究中,科学家们使用 AlphaGenome 预测了一个特定癌症相关变异如何通过引入 MYB DNA 结合基序激活附近的一个叫 TAL1 的基因,从而验证了已知的疾病机制,展示了 AlphaGenome 在连接非编码变异与疾病基因方面的潜力。 尽管 AlphaGenome 标志着基因组研究的重要里程碑,但仍有局限性需要克服。例如,准确捕获超过 100,000 个碱基对之外的远端调控元素依然是挑战。此外,模型主要集中在个体遗传变异的性能,尚未设计或验证用于个人基因组预测。因此,AlphaGenome 目前主要用于科研,而不是临床应用。 业内专家对 AlphaGenome 表示高度评价。Memorial Sloan Kettering 癌症中心的 Caleb Lareau 博士认为,这是基因组学领域的一个重要突破,首次实现了长距离上下文、单碱基分辨率和顶尖性能的统一。伦敦大学学院的 Marc Mansour 教授则指出,AlphaGenome 将成为了解不同非编码变异相关性的强大工具,尤其是在涉及大规模研究时,有助于更好地理解像癌症这样的复杂疾病。 DeepMind 成立于 2010 年,是一家致力于开发人工智能技术解决重大科学和医疗问题的公司。AlphaGenome 是其在基因组学领域的最新成果,展示出了该公司在前沿科技领域的持续投入和创新。