Google DeepMind ha compiuto un passo significativo verso la realizzazione di robot più intelligenti e indipendenti con il rilascio di Gemini Robotics On-Device, un potente sistema di intelligenza artificiale che opera interamente sul robot stesso, senza ricorrere al cloud.
Presentato il 24 giugno 2025, questo modello vision-language-action (VLA) rappresenta un importante progresso nell’IA per la robotica, eliminando la necessità di una connessione internet costante. La tecnologia si basa sulla piattaforma Gemini Robotics lanciata a marzo, che aveva introdotto il ragionamento multimodale e la comprensione del mondo reale nelle macchine grazie al framework Gemini 2.0.
Nonostante l’esecuzione locale, il modello on-device offre capacità impressionanti. Nei benchmark di Google, le sue prestazioni si avvicinano a quelle del modello Gemini Robotics basato su cloud, superando altre alternative on-device soprattutto in compiti complessi fuori distribuzione e in istruzioni multi-step articolate.
"Poiché il modello funziona indipendentemente da una rete dati, è utile per applicazioni sensibili alla latenza e garantisce robustezza in ambienti con connettività intermittente o assente", ha dichiarato Google DeepMind nel suo annuncio.
Gemini Robotics On-Device dimostra una notevole destrezza generalista in diversi scenari di test. Durante le dimostrazioni, i robot alimentati dal modello hanno completato con successo compiti ad alta destrezza come aprire zip di borse e piegare vestiti senza assistenza dal cloud. Il sistema è in grado di comprendere comandi in linguaggio naturale e adattarsi in tempo reale a cambiamenti nell’ambiente.
Google sta inoltre rilasciando un SDK di Gemini Robotics per aiutare gli sviluppatori a valutare e personalizzare il modello. In particolare, questo è il primo modello VLA che Google rende disponibile per il fine-tuning, consentendo agli sviluppatori di adattarlo a specifiche applicazioni con appena 50-100 dimostrazioni.
Inizialmente addestrato per i robot ALOHA, Google ha già adattato il modello per funzionare anche con altre piattaforme, tra cui il robot bi-braccio Franka FR3 e il robot umanoide Apollo di Apptronik. Questa versatilità suggerisce ampie potenzialità di applicazione in settori che vanno dalla manifattura alla sanità.
Questo sviluppo arriva in un momento in cui la competizione nella robotica alimentata dall’IA si fa sempre più intensa, con aziende come Nvidia, Hugging Face e RLWRLD impegnate nello sviluppo di modelli fondamentali per i robot. L’approccio on-device di Google affronta un limite cruciale del settore, permettendo ai robot di operare efficacemente anche in ambienti dove la connettività cloud è impraticabile o impossibile.