何十年もの間、科学者たちはヒトDNAのうち、タンパク質を直接コードしない98%の領域――いわゆるゲノムの「ダークマター」――の役割解明に苦闘してきた。2025年6月25日、Google DeepMindはこの謎に挑むAIシステム「AlphaGenome」を発表した。
従来のモデルは短いDNA断片しか解析できなかったり、塩基単位での精度に欠けていたが、AlphaGenomeは最大100万文字(塩基)に及ぶ配列を、ヌクレオチドレベルの解像度で処理できる。この技術的ブレークスルーにより、遠く離れた制御領域が遺伝子の働きにどう影響するかを調べることが可能となり、疾患メカニズムの理解に大きく貢献する。
「これは生物学だけでなく、科学全体における最も根本的な問題の一つです」と、DeepMindのサイエンスAI部門責任者Pushmeet Kohli氏は語る。AlphaGenomeは、異なる組織での遺伝子の開始・終了位置、RNAのスプライシング、特定のDNA領域に結合するタンパク質など、数千に及ぶ分子特性を予測できる。
ベンチマークテストでは、AlphaGenomeは24の配列予測タスクのうち22で専門ツールを上回り、26の変異効果評価のうち24で同等またはそれ以上の成績を収めた。白血病患者で見られる変異を解析した際には、非コード変異がMYBタンパク質の新たな結合部位を作り、がん関連遺伝子TAL1を活性化するという、これまで実験でしか確認されていなかった疾患メカニズムを正確に予測した。
「初めて、長距離文脈・塩基単位の精度・最先端の性能を、ゲノム解析のあらゆるタスクで統合した単一モデルが誕生しました」と、先行利用したMemorial Sloan Kettering Cancer CenterのCaleb Lareau博士は述べている。
一方で、AlphaGenomeにも限界はある。10万塩基対以上離れた制御領域の解析は苦手で、個人の健康や形質の予測もできない。DeepMindは非商用研究向けにAPIを通じてモデルを公開し、今後は完全公開も予定している。研究者たちは、これまで膨大な実験が必要だった疾患研究が、仮想実験によって大幅に加速すると期待している。