数十年来,科学家一直在努力理解人类 DNA 中曾被称为“垃圾”的大片区域。自 2003 年人类基因组序列被完全解析以来,其中 98% 不直接编码蛋白质的部分,其功能依然 largely 神秘。
Google DeepMind 最新的 AI 模型 AlphaGenome,标志着破解这一谜题的重要一步。该系统于 2025 年 6 月 25 日发布,能够处理长达一百万个碱基的 DNA 序列,并预测不同组织和细胞类型中数千种分子属性。
“这不仅是生物学领域,也是整个科学领域最根本的问题之一。”DeepMind 科学 AI 负责人 Pushmeet Kohli 在发布会上表示。AlphaGenome 采用“序列到功能”的模型,能够对长片段 DNA 进行分析,预测包括基因表达水平及突变影响在内的多种属性。
AlphaGenome 的革命性在于其对非编码区域的前所未有的精准解析。此前的模型在序列长度和分辨率之间必须权衡,而 AlphaGenome 实现了两者兼得,可覆盖 11 种不同的基因调控模态。在 26 项变异效应预测评估中,AlphaGenome 在 24 项上超越了专用模型。
该模型已展现出实际应用价值。在分析白血病患者的突变时,AlphaGenome 准确预测出非编码突变激活了附近的致癌基因。这一能力有望彻底改变研究人员对遗传性疾病的研究方式。
“你会得到一份基因变异列表,但我想知道哪些变异真正产生了作用,以及我可以在哪里干预。”纪念斯隆凯特琳癌症中心计算生物学家 Caleb Lareau(曾率先获得该系统使用权)解释道,“这让我们距离对任何变异在人类中作用的初步判断更近了一步。”
虽然仍处于早期阶段,AlphaGenome 已通过 API 向非商业研究开放。DeepMind 计划未来公布模型的全部细节,或将推动其在基因组医学和治疗开发领域的更广泛应用。