Googleは、今年初めにGemini 2.5 Flashで成功裏に導入した革新的なコスト管理機能「シンキングバジェット」を、同社の最先端AI推論モデルであるGemini 2.5 Proにも拡大すると発表しました。
シンキングバジェットは、AIが複雑な問題を推論する際に割り当てる計算リソースを開発者が精密に制御できるという、AIコスト管理における大きな進歩です。この機能により、ユーザーはモデルが応答を生成する前に内部推論で使用するトークン数の上限を指定したり、シンプルなタスクでは推論機能自体を完全に無効化したりすることができます。
Googleは発表の中で「2.5 Flashでシンキングバジェットを導入し、レイテンシと品質のバランスを取りながらコストを制御できるようにしました。そして、この機能を2.5 Proにも拡大します」と述べています。同社は、シンキングバジェット対応のGemini 2.5 Proが今後数週間以内に安定版として一般提供される予定であることも明らかにしました。
この取り組みは、AI市場における根本的な課題、すなわち高度な推論機能の利用がレイテンシとコストの増大を招くというジレンマに対応するものです。例えば、Gemini 2.5 Flashでは推論機能を有効にすると、出力コストが100万トークンあたり0.60ドルから3.50ドルへと約6倍に跳ね上がります。シンキングバジェットの導入により、企業は用途に応じてAIの推論機能を最適化し、必要な場合のみ推論を有効化できるようになります。
この機能は、先進的なAI機能を活用しつつもコスト管理が求められるエンタープライズ顧客にとって特に有用です。例えば、言語翻訳や基本的な情報検索などのシンプルな問い合わせでは推論を無効化し、コスト効率を最大化できます。一方で、数学的問題解決や高度な分析など多段階の推論が必要な複雑なタスクでは、推論機能を有効化し、細かく調整することが可能です。
AIがビジネスワークフローにますます組み込まれていく中、Googleのカスタマイズ可能な推論機能は、コスト最適化やパフォーマンス調整がAIの純粋な能力と同等に重要視される成熟した市場の到来を示しています。これは、生成AI技術の商用化が新たな段階に入ったことを象徴しています。