Google DeepMind ha compiuto un passo importante verso l’integrazione di capacità avanzate di intelligenza artificiale nei robot fisici con il rilascio di Gemini Robotics On-Device, un modello progettato per funzionare interamente sull’hardware locale del robot.
Il nuovo sistema, annunciato a fine giugno 2025, si basa sulla piattaforma Gemini Robotics introdotta a marzo, che per prima ha portato il ragionamento multimodale di Gemini 2.0 nel mondo fisico. Ciò che rende questa ultima versione rivoluzionaria è la capacità di operare in modo indipendente dalla connettività cloud, mantenendo al contempo prestazioni di alto livello.
"Gemini Robotics On-Device mostra una forte destrezza generica e capacità di generalizzazione dei compiti, ed è ottimizzato per funzionare in modo efficiente direttamente sul robot", si legge nell’annuncio ufficiale di Google DeepMind. Questa indipendenza dalla rete lo rende particolarmente prezioso per applicazioni sensibili alla latenza e in ambienti con connettività intermittente o assente.
Nei test di benchmark, Google afferma che il modello on-device raggiunge prestazioni vicine a quelle della versione cloud, superando le altre alternative locali, soprattutto su compiti fuori distribuzione e istruzioni complesse a più passaggi.
Il modello dimostra una notevole adattabilità, richiedendo solo 50-100 dimostrazioni per apprendere nuovi compiti. Sebbene inizialmente addestrato per i robot ALOHA, Google è riuscita ad adattarlo anche ai robot bi-braccio Franka FR3 e al robot umanoide Apollo di Apptronik, dimostrando la sua versatilità su diverse piattaforme robotiche.
Insieme al modello, Google rilascia anche un SDK Gemini Robotics per aiutare gli sviluppatori a valutare e personalizzare la tecnologia per le proprie applicazioni specifiche. L’SDK consente test nel simulatore fisico MuJoCo di Google e offre strumenti per una rapida adattabilità a nuovi domini.
Questo sviluppo rappresenta un importante progresso nella robotica applicata, portando l’IA sofisticata direttamente sui dispositivi robotici. Sebbene le applicazioni consumer possano essere ancora lontane, Carolina Parada, responsabile della robotica presso Google DeepMind, vede un grande potenziale: "Potrebbero essere più utili in settori dove le configurazioni sono complesse, la precisione è fondamentale e gli ambienti non sono adatti alle persone. E potrebbero essere utili anche in spazi a misura d’uomo, come la casa."