Google DeepMind franchit une étape majeure vers des robots plus intelligents et autonomes avec le lancement de Gemini Robotics On-Device, un système d’IA puissant qui fonctionne entièrement sur le robot lui-même, sans passer par le cloud.
Dévoilé le 24 juin 2025, ce modèle vision-langage-action (VLA) marque une avancée significative dans l’IA robotique en supprimant le besoin de connexion Internet permanente. Cette technologie s’appuie sur la plateforme Gemini Robotics lancée en mars, qui avait introduit le raisonnement multimodal et la compréhension du monde réel dans les machines grâce au framework Gemini 2.0.
Le modèle embarqué offre des capacités impressionnantes, malgré une exécution locale. Selon les benchmarks de Google, il atteint des performances proches du modèle Gemini Robotics basé sur le cloud, tout en surpassant les autres alternatives embarquées, notamment sur des tâches complexes hors distribution et des instructions multi-étapes.
« Puisque le modèle fonctionne indépendamment d’un réseau de données, il est particulièrement utile pour les applications sensibles à la latence et garantit la robustesse dans des environnements à connectivité intermittente ou nulle », a déclaré Google DeepMind dans son annonce.
Gemini Robotics On-Device démontre une grande dextérité polyvalente lors de divers scénarios de test. Lors de démonstrations, des robots équipés du modèle ont réussi des tâches très complexes, comme ouvrir des sacs à fermeture éclair ou plier des vêtements, sans assistance du cloud. Le système comprend les commandes en langage naturel et s’adapte en temps réel à des environnements changeants.
Google propose également un SDK Gemini Robotics pour aider les développeurs à évaluer et personnaliser le modèle. Notamment, il s’agit du premier modèle VLA de Google disponible pour un ajustement fin, permettant aux développeurs de l’adapter à des applications spécifiques avec seulement 50 à 100 démonstrations.
Initialement entraîné pour les robots ALOHA, le modèle a déjà été adapté à d’autres plateformes, dont le robot bi-bras Franka FR3 et le robot humanoïde Apollo d’Apptronik. Cette polyvalence laisse entrevoir de larges applications potentielles, de l’industrie manufacturière à la santé.
Ce développement intervient alors que la concurrence dans la robotique alimentée par l’IA s’intensifie, avec des entreprises comme Nvidia, Hugging Face ou RLWRLD qui travaillent toutes sur des modèles fondamentaux pour robots. L’approche embarquée de Google répond à une limitation cruciale du secteur en permettant aux robots de fonctionner efficacement dans des environnements où la connectivité cloud est impraticable ou impossible.