Google DeepMind ha dado un paso significativo hacia la creación de robots más inteligentes e independientes con el lanzamiento de Gemini Robotics On-Device, un potente sistema de IA que funciona íntegramente en el propio robot, en lugar de depender de la nube.
Presentado el 24 de junio de 2025, este modelo de visión-lenguaje-acción (VLA) supone un gran avance en la IA robótica al eliminar la necesidad de una conectividad constante a internet. La tecnología se basa en la plataforma Gemini Robotics de Google, lanzada en marzo, que aportó razonamiento multimodal y comprensión del mundo real a las máquinas mediante el framework Gemini 2.0.
El modelo en dispositivo ofrece capacidades impresionantes a pesar de ejecutarse localmente. En las pruebas de Google, su rendimiento se acerca al del modelo Gemini Robotics basado en la nube, superando además a otras alternativas en dispositivo, especialmente en tareas difíciles fuera de distribución y en instrucciones complejas de varios pasos.
"Dado que el modelo funciona de manera independiente a una red de datos, resulta útil para aplicaciones sensibles a la latencia y garantiza robustez en entornos con conectividad intermitente o nula", afirmó Google DeepMind en su anuncio.
Gemini Robotics On-Device demuestra una gran destreza generalista en diversos escenarios de prueba. En las demostraciones, los robots impulsados por el modelo completaron con éxito tareas de alta destreza, como abrir cremalleras de bolsas y doblar ropa, sin asistencia de la nube. El sistema puede comprender órdenes en lenguaje natural y adaptarse en tiempo real a entornos cambiantes.
Google también ha lanzado un SDK de Gemini Robotics para ayudar a los desarrolladores a evaluar y personalizar el modelo. Cabe destacar que este es el primer modelo VLA de Google disponible para ajuste fino, permitiendo a los desarrolladores adaptarlo a aplicaciones específicas con tan solo 50 a 100 demostraciones.
Inicialmente entrenado para robots ALOHA, Google ya ha adaptado el modelo para funcionar con otras plataformas, incluyendo el robot bíceps Franka FR3 y el robot humanoide Apollo de Apptronik. Esta versatilidad sugiere un amplio abanico de aplicaciones potenciales en sectores que van desde la fabricación hasta la sanidad.
Este desarrollo llega en un momento en el que la competencia en robótica impulsada por IA se intensifica, con empresas como Nvidia, Hugging Face y RLWRLD trabajando en modelos fundacionales para robots. El enfoque en dispositivo de Google aborda una limitación crítica en el sector, al permitir que los robots funcionen eficazmente en entornos donde la conectividad en la nube es impracticable o imposible.