menu
close

GoogleのGemini DiffusionがAIテキスト生成を革新

Googleは、ランダムノイズから一貫性のあるテキストを生成し、従来モデルの最大5倍の速度を実現する画期的なテキスト生成モデル「Gemini Diffusion」を発表した。この実験的モデルは、画像生成技術に類似したディフュージョン技術を活用し、最大毎秒2,000トークンの生成速度を達成しつつ、既存モデルと同等のコーディング性能を維持している。また、GoogleはGemini 2.5シリーズに「シンキングバジェット」を導入し、開発者が推論能力とコストを精密に制御できるようにした。
GoogleのGemini DiffusionがAIテキスト生成を革新

Google DeepMindは、従来の自己回帰型言語モデルとは一線を画す、AIテキスト生成の革新的アプローチ「Gemini Diffusion」を発表した。

従来のモデルがトークンを一つずつ順番に生成するのに対し、Gemini Diffusionは主に画像や動画生成で用いられてきたディフュージョン技術を応用し、ランダムノイズを反復的に洗練させて一貫性のあるテキストへと変換する。この新しい手法により、DeepMindの研究者によれば、最大毎秒2,000トークンという驚異的な速度での生成が可能となった。

Googleは発表の中で「テキストを直接予測するのではなく、ノイズを段階的に洗練することで出力を生成することを学習します。これにより、非常に高速に解答を反復しながら、生成過程でエラー修正も可能になります」と説明している。

現在ウェイトリスト経由で利用可能な実験的デモでは、この技術がGoogleの既存モデルと同等のコーディング性能を維持しつつ、生成時間を大幅に短縮できることを示している。ベンチマークでは、Gemini DiffusionはHumanEvalやMBPPといったプログラミングタスクでGemini 2.0 Flash-Liteとほぼ同等の結果を記録した。

Google DeepMindのリサーチ担当副社長でありGeminiプロジェクトの共同責任者でもあるOriol Vinyals氏は、今回のリリースを個人的なマイルストーンと位置付け、「デモがあまりにも速く動作したため、視聴可能な速度にするために動画をスローダウンする必要があった」と語っている。

一方で、GoogleはGemini 2.5シリーズにも新機能を追加した。Gemini 2.5 Flashには「シンキングバジェット」が導入され、開発者はAIの推論量を前例のないレベルで制御できるようになった。この機能により、ユーザーはモデルの推論プロセスにおけるトークン上限(最大24,576トークン)を設定し、品質・遅延・コストのバランスを柔軟に調整できる。

また、シンキングバジェットはGemini 2.5 Proにも拡張され、数週間以内に一般提供が開始される予定だ。さらに、Gemini APIにはModel Context Protocol(MCP)定義のネイティブSDKサポートが追加され、オープンソースツールとの統合やエージェント型アプリケーションの構築が容易になった。

これらの進化は、Googleが高い性能基準を維持しつつ、AIをより効率的かつ制御可能で、開発者にとって身近なものにするための取り組みを象徴している。

Source:

Latest News