A Google DeepMind deu um passo importante para dotar os robôs físicos de capacidades avançadas de IA com o lançamento do Gemini Robotics On-Device, um modelo concebido para funcionar inteiramente em hardware robótico local.
O novo sistema, anunciado no final de junho de 2025, baseia-se na plataforma Gemini Robotics apresentada em março, que trouxe pela primeira vez o raciocínio multimodal do Gemini 2.0 para o mundo físico. O que torna este lançamento inovador é a sua capacidade de operar de forma independente da cloud, mantendo níveis de desempenho impressionantes.
"O Gemini Robotics On-Device demonstra uma forte destreza polivalente e generalização de tarefas, estando otimizado para funcionar de forma eficiente no próprio robô", segundo o anúncio oficial da Google DeepMind. Esta independência da conectividade de rede torna-o especialmente valioso para aplicações sensíveis à latência e ambientes com conectividade intermitente ou inexistente.
Em testes de referência, a Google afirma que o modelo em dispositivo apresenta um desempenho próximo do seu equivalente na cloud, superando outras alternativas locais, especialmente em tarefas exigentes fora da distribuição e em instruções complexas de múltiplos passos.
O modelo revela uma notável adaptabilidade, necessitando apenas de 50 a 100 demonstrações para aprender novas tarefas. Embora inicialmente treinado para robôs ALOHA, a Google conseguiu adaptá-lo com sucesso para funcionar com robôs bi-braço Franka FR3 e com o robô humanóide Apollo da Apptronik, demonstrando a sua versatilidade em diferentes plataformas robóticas.
Em paralelo com o modelo, a Google está a lançar um SDK Gemini Robotics para ajudar os programadores a avaliar e personalizar a tecnologia para aplicações específicas. O SDK permite testes no simulador físico MuJoCo da Google e disponibiliza ferramentas para uma rápida adaptação a novos domínios.
Este desenvolvimento representa um avanço significativo na robótica prática ao trazer IA sofisticada diretamente para os dispositivos robóticos. Embora as aplicações para o consumidor possam ainda demorar alguns anos, Carolina Parada, responsável pela robótica na Google DeepMind, vê um amplo potencial: "Podem ser mais úteis em indústrias onde os ambientes são complexos, a precisão é importante e os espaços não são adequados a humanos. E podem ser úteis em ambientes centrados nas pessoas, como o lar."