Google DeepMind wykonało znaczący krok w kierunku uczynienia robotów inteligentniejszymi i bardziej niezależnymi, wprowadzając Gemini Robotics On-Device – potężny system AI działający całkowicie na samym robocie, bez konieczności korzystania z chmury.
Zaprezentowany 24 czerwca 2025 roku model vision-language-action (VLA) stanowi istotny postęp w dziedzinie AI dla robotyki, eliminując potrzebę stałego połączenia z internetem. Technologia ta bazuje na platformie Gemini Robotics, uruchomionej w marcu, która wprowadziła do maszyn multimodalne rozumowanie i rozumienie rzeczywistości dzięki frameworkowi Gemini 2.0.
Model on-device zapewnia imponujące możliwości, mimo że działa lokalnie. W testach Google jego wydajność jest zbliżona do chmurowego Gemini Robotics, a jednocześnie przewyższa inne rozwiązania on-device, zwłaszcza w przypadku trudnych zadań spoza zbioru treningowego oraz złożonych instrukcji wieloetapowych.
„Ponieważ model działa niezależnie od sieci danych, jest przydatny w zastosowaniach wymagających niskich opóźnień i zapewnia odporność w środowiskach z przerywaną lub zerową łącznością” – poinformowało Google DeepMind w swoim komunikacie.
Gemini Robotics On-Device wykazuje dużą uniwersalność i zręczność w różnych scenariuszach testowych. Podczas demonstracji roboty zasilane tym modelem skutecznie wykonywały bardzo zręczne zadania, takie jak rozpinanie toreb czy składanie ubrań, bez wsparcia chmury. System rozumie polecenia w języku naturalnym i potrafi dostosowywać się do zmieniającego się otoczenia w czasie rzeczywistym.
Google udostępnia także SDK Gemini Robotics, aby pomóc deweloperom w ocenie i dostosowywaniu modelu. Co istotne, jest to pierwszy model VLA firmy Google dostępny do fine-tuningu, co pozwala programistom dopasować go do konkretnych zastosowań już na podstawie 50–100 demonstracji.
Model został początkowo wytrenowany dla robotów ALOHA, ale Google już przystosowało go do współpracy z innymi platformami, w tym z dwu-ramiennym robotem Franka FR3 oraz humanoidalnym robotem Apollo firmy Apptronik. Ta wszechstronność sugeruje szerokie możliwości zastosowań – od przemysłu po opiekę zdrowotną.
Premiera następuje w momencie, gdy konkurencja na rynku robotyki opartej na AI się zaostrza – nad własnymi modelami bazowymi dla robotów pracują m.in. Nvidia, Hugging Face i RLWRLD. Podejście Google, polegające na działaniu bezpośrednio na urządzeniu, rozwiązuje kluczowe ograniczenie branży, umożliwiając robotom skuteczne funkcjonowanie tam, gdzie dostęp do chmury jest niepraktyczny lub niemożliwy.