Google DeepMind har tagit ett betydande steg mot att göra robotar smartare och mer självständiga genom lanseringen av Gemini Robotics On-Device, ett kraftfullt AI-system som körs helt och hållet på roboten själv istället för i molnet.
Modellen, som presenterades den 24 juni 2025, är en så kallad vision-language-action (VLA)-modell och utgör ett stort framsteg inom robotik-AI genom att eliminera behovet av ständig internetuppkoppling. Tekniken bygger vidare på Googles Gemini Robotics-plattform som lanserades i mars, vilken introducerade multimodal slutledning och verklighetsförståelse i maskiner via Gemini 2.0-ramverket.
Trots att modellen körs lokalt levererar den imponerande kapacitet. I Googles tester presterar den nära nivåerna hos den molnbaserade Gemini Robotics-modellen och överträffar andra alternativ på enheten, särskilt vid utmanande uppgifter utanför träningsdata och komplexa instruktioner i flera steg.
"Eftersom modellen fungerar oberoende av datanätverk är den användbar för applikationer med krav på låg fördröjning och säkerställer robusthet i miljöer med intermittent eller ingen uppkoppling alls," uppgav Google DeepMind i sitt tillkännagivande.
Gemini Robotics On-Device visar stark generell fingerfärdighet i olika testsituationer. I demonstrationer lyckades robotar med modellen utföra mycket fingerfärdiga uppgifter som att öppna dragkedjor på väskor och vika kläder utan molnhjälp. Systemet kan förstå naturliga språkinstruktioner och anpassa sig till föränderliga miljöer i realtid.
Google släpper även ett Gemini Robotics SDK för att hjälpa utvecklare att utvärdera och anpassa modellen. Det är särskilt anmärkningsvärt att detta är den första VLA-modellen från Google som görs tillgänglig för finjustering, vilket gör det möjligt för utvecklare att anpassa den till specifika tillämpningar med så få som 50 till 100 demonstrationer.
Modellen tränades initialt för ALOHA-robotar, men Google har redan anpassat den för andra plattformar, inklusive den tvåarmade Franka FR3-roboten och Apptroniks Apollo-humanoida robot. Denna mångsidighet pekar på breda användningsområden inom allt från tillverkning till sjukvård.
Utvecklingen sker samtidigt som konkurrensen inom AI-drivna robotar hårdnar, med företag som Nvidia, Hugging Face och RLWRLD som alla arbetar med grundmodeller för robotik. Googles strategi att köra AI på enheten adresserar en avgörande begränsning inom området genom att möjliggöra effektiv robotfunktion även där molnuppkoppling är opraktisk eller omöjlig.