Google DeepMind a făcut un pas semnificativ spre creșterea inteligenței și independenței roboților prin lansarea Gemini Robotics On-Device, un sistem AI puternic care funcționează integral pe robot, fără a depinde de cloud.
Prezentat pe 24 iunie 2025, acest model vision-language-action (VLA) reprezintă un progres major în domeniul AI-ului pentru robotică, eliminând necesitatea unei conexiuni permanente la internet. Tehnologia se bazează pe platforma Gemini Robotics lansată de Google în martie, care a adus raționament multimodal și înțelegere a lumii reale roboților prin framework-ul Gemini 2.0.
Modelul local oferă capabilități impresionante, deși rulează direct pe dispozitiv. În testele Google, acesta atinge performanțe apropiate de modelul Gemini Robotics bazat pe cloud și depășește alte alternative locale, în special în sarcini dificile, atipice sau cu instrucțiuni complexe, în mai mulți pași.
„Deoarece modelul funcționează independent de o rețea de date, este util pentru aplicații sensibile la latență și asigură robustețe în medii cu conectivitate intermitentă sau inexistentă”, a declarat Google DeepMind în anunțul său.
Gemini Robotics On-Device demonstrează o dexteritate generalistă remarcabilă în diverse scenarii de testare. În demonstrații, roboții alimentați de acest model au reușit să finalizeze sarcini de mare finețe, precum deschiderea fermoarelor sau împăturirea hainelor, fără asistență din cloud. Sistemul poate înțelege comenzi în limbaj natural și se adaptează în timp real la schimbările din mediul înconjurător.
Google lansează, de asemenea, un SDK Gemini Robotics pentru a ajuta dezvoltatorii să evalueze și să personalizeze modelul. Notabil, acesta este primul model VLA pe care Google îl pune la dispoziție pentru fine-tuning, permițând adaptarea la aplicații specifice cu doar 50 până la 100 de demonstrații.
Antrenat inițial pentru roboții ALOHA, modelul a fost deja adaptat de Google pentru a funcționa și pe alte platforme, inclusiv robotul bimanual Franka FR3 și robotul umanoid Apollo de la Apptronik. Această versatilitate sugerează un potențial larg de aplicare, de la industrie la sănătate.
Dezvoltarea vine pe fondul intensificării competiției în domeniul roboticii alimentate de AI, companii precum Nvidia, Hugging Face și RLWRLD lucrând la modele de bază pentru roboți. Abordarea locală a Google rezolvă o limitare critică a domeniului, permițând roboților să funcționeze eficient în medii unde conectivitatea la cloud este impracticabilă sau imposibilă.