Google DeepMindは、従来の自己回帰型言語モデルとは一線を画す、AIテキスト生成の革新的アプローチ「Gemini Diffusion」を発表した。
従来のモデルがトークンを一つずつ順番に生成するのに対し、Gemini Diffusionは主に画像や動画生成で用いられてきたディフュージョン技術を応用し、ランダムノイズを反復的に洗練させて一貫性のあるテキストへと変換する。この新しい手法により、DeepMindの研究者によれば、最大毎秒2,000トークンという驚異的な速度での生成が可能となった。
Googleは発表の中で「テキストを直接予測するのではなく、ノイズを段階的に洗練することで出力を生成することを学習します。これにより、非常に高速に解答を反復しながら、生成過程でエラー修正も可能になります」と説明している。
現在ウェイトリスト経由で利用可能な実験的デモでは、この技術がGoogleの既存モデルと同等のコーディング性能を維持しつつ、生成時間を大幅に短縮できることを示している。ベンチマークでは、Gemini DiffusionはHumanEvalやMBPPといったプログラミングタスクでGemini 2.0 Flash-Liteとほぼ同等の結果を記録した。
Google DeepMindのリサーチ担当副社長でありGeminiプロジェクトの共同責任者でもあるOriol Vinyals氏は、今回のリリースを個人的なマイルストーンと位置付け、「デモがあまりにも速く動作したため、視聴可能な速度にするために動画をスローダウンする必要があった」と語っている。
一方で、GoogleはGemini 2.5シリーズにも新機能を追加した。Gemini 2.5 Flashには「シンキングバジェット」が導入され、開発者はAIの推論量を前例のないレベルで制御できるようになった。この機能により、ユーザーはモデルの推論プロセスにおけるトークン上限(最大24,576トークン)を設定し、品質・遅延・コストのバランスを柔軟に調整できる。
また、シンキングバジェットはGemini 2.5 Proにも拡張され、数週間以内に一般提供が開始される予定だ。さらに、Gemini APIにはModel Context Protocol(MCP)定義のネイティブSDKサポートが追加され、オープンソースツールとの統合やエージェント型アプリケーションの構築が容易になった。
これらの進化は、Googleが高い性能基準を維持しつつ、AIをより効率的かつ制御可能で、開発者にとって身近なものにするための取り組みを象徴している。