Google DeepMindは、ロボットをより賢く、より自立させるための大きな一歩として、クラウドではなくロボット本体上で完全に動作する強力なAIシステム「Gemini Robotics On-Device」を発表した。
2025年6月24日に公開されたこのビジョン・ランゲージ・アクション(VLA)モデルは、常時インターネット接続を不要にすることで、ロボティクスAIの大きな進歩を示している。この技術は、3月に発表されたGemini Roboticsプラットフォームを基盤としており、Gemini 2.0フレームワークを通じてマルチモーダルな推論や現実世界の理解をロボットにもたらしてきた。
オンデバイスモデルは、ローカルで動作するにもかかわらず、印象的な性能を発揮する。Googleのベンチマークでは、クラウドベースのGemini Roboticsモデルに近いレベルのパフォーマンスを示し、特に難易度の高い未知のタスクや複雑なマルチステップ指示において、他のオンデバイス型AIを上回った。
「このモデルはデータネットワークに依存しないため、低遅延が求められるアプリケーションに適しており、接続が不安定またはゼロの環境でも堅牢性を確保できます」とGoogle DeepMindは発表で述べている。
Gemini Robotics On-Deviceは、さまざまなテストシナリオにおいて汎用的な器用さを発揮した。デモンストレーションでは、同モデルを搭載したロボットが、バッグのファスナーを開けたり、衣服をたたむといった高度な器用さを要する作業を、クラウドの支援なしで成功させている。また、自然言語による指示を理解し、リアルタイムで環境の変化に適応することも可能だ。
Googleは開発者向けに「Gemini Robotics SDK」も公開し、モデルの評価やカスタマイズを支援する。特筆すべきは、Googleが初めてVLAモデルのファインチューニングを可能にした点で、50~100件程度のデモンストレーションで特定用途向けに適応できる。
当初はALOHAロボット向けに訓練されたが、すでに二腕型のFranka FR3ロボットやApptronik社のヒューマノイドロボット「Apollo」など、他のプラットフォームにも適用されている。この汎用性は、製造業から医療分野まで幅広い産業への応用可能性を示唆している。
この開発は、Nvidia、Hugging Face、RLWRLDなど各社がロボット向け基盤モデルの開発を進める中で発表された。Googleのオンデバイスアプローチは、クラウド接続が困難な環境でもロボットが効果的に機能できるという、ロボティクス分野の重要な課題を解決するものだ。