計算生物学の大きな進展として、Google DeepMindは非コードDNA――しばしばゲノムの「ダークマター」と呼ばれる部分――の謎を解読するための人工知能システム「AlphaGenome」を発表した。
2003年にヒトゲノム計画が完了し、私たちの遺伝情報の全体像が明らかになったものの、その大部分が実際に何をしているのかは依然として生物学最大の難題の一つだった。ヒトDNAのうちタンパク質を直接コードするのはわずか約2%で、残り98%は重要な制御機能を担っているが、その解釈は困難だった。
AlphaGenomeはこの課題に対する大きな前進を示している。同モデルは最大100万塩基対という非常に長いDNA配列を解析し、これまでにない精度で数千の分子特性を予測できる。例えば、異なる組織での遺伝子の開始・終了位置、RNAのスプライシング、RNA産生量、特定のDNA領域に結合するタンパク質などを予測可能だ。
DeepMindリサーチ担当副社長のPushmeet Kohli氏は「ゲノム理解に伴う多様な課題を統合する単一モデルを初めて実現した」と語る。AlphaGenomeは24の配列予測ベンチマークのうち22で専門モデルを上回り、26の変異効果予測タスクのうち24で同等またはそれ以上の成績を示した。
従来のゲノムAIモデルが特定のタスクやタンパク質コード領域のみに焦点を当てていたのに対し、AlphaGenomeはゲノム全体の解釈に包括的なアプローチを提供する。スタンフォード大学の計算ゲノミクス研究者Anshul Kundaje氏(先行利用者)は「現行の最先端シーケンス-機能モデルのほぼすべてにおいて真の進歩だ」と評価する。
応用範囲は広い。AlphaGenomeは疾患原因の特定精度向上や、特定の制御機能を持つ合成DNA設計、遺伝性疾患の理解加速などに貢献すると期待される。実演では、白血病でがん関連遺伝子が新たなタンパク質結合部位を作り活性化する既知の疾患メカニズムを、特定変異によって予測することに成功した。
AlphaGenomeは現在、非商用研究向けにAPI経由で利用可能となっており、DeepMindは今後モデルの詳細も公開予定だ。同社は「本システムは大きなブレークスルーだが、個人ゲノム予測や臨床利用を目的に設計・検証されたものではない」と強調している。