在计算生物学领域取得重大突破之际,谷歌 DeepMind 推出了 AlphaGenome,这是一套旨在破解非编码 DNA(常被称为基因组“暗物质”)奥秘的人工智能系统。
尽管科学家们早在 2003 年就完成了人类基因组计划,绘制出了完整的遗传蓝图,但绝大多数 DNA 的功能至今仍是生物学领域最难解的谜题之一。人类 DNA 中,只有约 2% 直接编码蛋白质,其余 98% 则承担着关键的调控作用,但这些功能一直难以解析。
AlphaGenome 在应对这一挑战上迈出了重要一步。该模型能够分析长达一百万碱基对的超长 DNA 序列,并以前所未有的精度预测数千种分子属性,包括基因在不同组织中的起止位置、RNA 剪接方式、RNA 产量以及特定蛋白质与 DNA 区域的结合情况等。
DeepMind 研究副总裁 Pushmeet Kohli 表示:“我们首次创建了一个能够统一解决理解基因组所面临多种挑战的单一模型。”在 24 项序列预测基准测试中,AlphaGenome 在 22 项上超越了专业模型,在 26 项变异效应预测任务中有 24 项达到或超过了其他模型的表现。
与以往仅聚焦特定任务或蛋白编码区的基因组 AI 模型不同,AlphaGenome 提供了对整个基因组的全面解读方法。斯坦福大学计算基因组学家 Anshul Kundaje(曾获得该系统早期访问权)评价道:“它在几乎所有现有的序列到功能模型中都是真正的提升。”
AlphaGenome 的潜在应用前景广阔。它有望帮助研究人员更精准地定位疾病成因,指导具有特定调控功能的合成 DNA 设计,并加速我们对遗传疾病的理解。在一次演示中,该模型成功预测了某些突变如何通过新建蛋白结合位点激活白血病相关基因,复现了已知的疾病机制。
AlphaGenome 目前已通过 API 向非商业研究开放,DeepMind 计划未来公布完整模型细节。公司强调,尽管该系统代表了重大突破,但尚未针对个人基因组预测或临床用途进行设计或验证。