Google DeepMindは、同社で最も先進的なマルチモーダル基盤モデルであるGemini 2.5 Proを、「世界モデル」と呼ばれるAIシステムへと進化させる取り組みを進めている。これは、人間の認知プロセスを模倣しながら現実世界の様々な側面を理解・シミュレーションできるAIを目指すものだ。
この野心的なプロジェクトは、Google I/O 2025で発表された。AIが世界の仕組みをモデル化することで計画を立てたり、新たな体験を想像したりできるようにすることが目的だ。DeepMindのCEOであるデミス・ハサビス氏によれば、この能力は単なる分類や予測を超えた、人工知能の本質的な進化を意味している。
「私たちが最高のマルチモーダル基盤モデルであるGemini 2.5 Proを、“世界モデル”として拡張し、脳と同じように世界の側面を理解・シミュレーションすることで計画を立てたり新しい体験を想像できるように取り組んでいる理由はここにあります」と、ハサビス氏は最近のブログ投稿で説明している。
Googleはすでに、Geminiが自然環境を表現・シミュレーションする能力や、Veoモデルを通じた直感的な物理法則の理解、Gemini Roboticsによるロボットへの物体把持や指示遂行の学習など、世界モデルとしての萌芽的な能力が現れていると見ている。
同社はこの進化を、「ユニバーサルAIアシスタント」――文脈を理解し、あらゆるデバイス上で計画・行動できる知的システム――の実現に向けた重要なステップと位置づけている。Googleの最終的なビジョンは、Geminiアプリを日常業務の遂行や事務作業の処理、パーソナライズされた提案までこなすアシスタントへと変革することだ。
この世界モデル機能は、すでに高い推論能力を持つGemini 2.5 Proの強みをさらに拡張するものとなる。同モデルは、複雑な数学・科学・コーディングタスクのベンチマークでトップを記録し、AIとの対話に対する人間の好みを測るLMArenaやWebDev Arenaのランキングでも首位を獲得している。
Googleは、マルチタスクに特化したProject Marinerや、視覚理解を強化するProject Astraの技術と、これらの世界モデル機能を統合する計画だ。強化されたGemini 2.5 Proは、現在のプレビュー段階を経て、2025年6月に一般提供が開始される予定である。