Google DeepMind har taget et markant skridt mod at gøre robotter både smartere og mere selvstændige med lanceringen af Gemini Robotics On-Device, et kraftfuldt AI-system, der opererer udelukkende på selve robotten fremfor i skyen.
Præsenteret den 24. juni 2025 repræsenterer denne vision-language-action (VLA) model et stort fremskridt inden for robot-AI ved at eliminere behovet for konstant internetforbindelse. Teknologien bygger videre på Googles Gemini Robotics-platform, der blev lanceret i marts, og som bragte multimodal ræsonnering og forståelse af den virkelige verden til maskiner via Gemini 2.0-rammen.
On-device-modellen leverer imponerende egenskaber, selvom den kører lokalt. I Googles egne benchmarks præsterer den næsten på niveau med den cloud-baserede Gemini Robotics-model og overgår andre on-device-alternativer, især på udfordrende opgaver uden for distributionsområdet og komplekse instruktioner i flere trin.
"Da modellen fungerer uafhængigt af et datanetværk, er den velegnet til applikationer med lave latenstidskrav og sikrer robusthed i miljøer med ustabil eller ingen forbindelse," udtalte Google DeepMind i sin annoncering.
Gemini Robotics On-Device demonstrerer stærk generel fingerfærdighed på tværs af forskellige testsituationer. I demonstrationer har robotter drevet af modellen med succes udført meget fingerfærdige opgaver som at lyne tasker op og folde tøj uden hjælp fra skyen. Systemet kan forstå naturlige sprogkommandoer og tilpasse sig skiftende omgivelser i realtid.
Google frigiver også et Gemini Robotics SDK, der skal hjælpe udviklere med at evaluere og tilpasse modellen. Bemærkelsesværdigt er dette den første VLA-model, Google gør tilgængelig for finjustering, hvilket giver udviklere mulighed for at tilpasse den til specifikke applikationer med så få som 50 til 100 demonstrationer.
Modellen blev oprindeligt trænet til ALOHA-robotter, men Google har allerede tilpasset den til at fungere med andre platforme, herunder den toarmede Franka FR3-robot og Apptroniks Apollo-humanoide robot. Denne alsidighed peger på brede anvendelsesmuligheder på tværs af industrier fra produktion til sundhedssektoren.
Udviklingen sker samtidig med, at konkurrencen inden for AI-drevne robotter intensiveres, hvor virksomheder som Nvidia, Hugging Face og RLWRLD alle arbejder på grundmodeller til robotter. Googles on-device-tilgang adresserer en kritisk begrænsning i feltet ved at gøre det muligt for robotter at fungere effektivt i miljøer, hvor cloud-forbindelse er upraktisk eller umulig.