Google DeepMind a franchi une étape majeure vers la création de robots plus intelligents et autonomes avec le lancement de Gemini Robotics On-Device, un puissant système d’IA qui fonctionne entièrement sur le robot lui-même, sans passer par le nuage.
Dévoilé le 24 juin 2025, ce modèle vision-langage-action (VLA) marque une avancée importante en IA robotique en éliminant le besoin d’une connexion Internet constante. Cette technologie s’appuie sur la plateforme Gemini Robotics lancée en mars, qui a apporté aux machines le raisonnement multimodal et la compréhension du monde réel grâce au cadre Gemini 2.0.
Le modèle embarqué offre des capacités impressionnantes, même en étant exécuté localement. Selon les tests de Google, il affiche des performances proches du modèle Gemini Robotics basé sur le nuage, tout en surpassant les autres solutions embarquées, notamment lors de tâches complexes hors distribution et d’instructions multi-étapes.
« Puisque le modèle fonctionne indépendamment d’un réseau de données, il est idéal pour les applications sensibles à la latence et assure une robustesse dans les environnements où la connectivité est intermittente ou inexistante », a indiqué Google DeepMind dans son annonce.
Gemini Robotics On-Device démontre une grande dextérité polyvalente dans divers scénarios de test. Lors des démonstrations, les robots propulsés par ce modèle ont réussi à accomplir des tâches très complexes, comme ouvrir des sacs à glissière ou plier des vêtements, sans assistance du nuage. Le système comprend les commandes en langage naturel et s’adapte en temps réel aux changements d’environnement.
Google lance également un SDK Gemini Robotics pour aider les développeurs à évaluer et personnaliser le modèle. Notamment, il s’agit du premier modèle VLA de Google disponible pour l’ajustement fin, permettant aux développeurs de l’adapter à des applications spécifiques avec aussi peu que 50 à 100 démonstrations.
Initialement entraîné pour les robots ALOHA, Google a déjà adapté le modèle à d’autres plateformes, dont le robot bi-bras Franka FR3 et le robot humanoïde Apollo d’Apptronik. Cette polyvalence laisse entrevoir de vastes applications potentielles dans des secteurs comme la fabrication ou la santé.
Ce développement survient alors que la concurrence s’intensifie dans le domaine de la robotique alimentée par l’IA, avec des entreprises comme Nvidia, Hugging Face et RLWRLD qui travaillent toutes sur des modèles fondamentaux pour robots. L’approche embarquée de Google répond à une limitation cruciale du secteur en permettant aux robots de fonctionner efficacement dans des environnements où la connectivité infonuagique est impraticable ou impossible.