A Google DeepMind deu um passo significativo para tornar os robôs mais inteligentes e independentes com o lançamento do Gemini Robotics On-Device, um poderoso sistema de IA que opera inteiramente no próprio robô, em vez de depender da cloud.
Apresentado a 24 de junho de 2025, este modelo de visão-linguagem-ação (VLA) representa um grande avanço na IA para robótica ao eliminar a necessidade de ligação constante à internet. A tecnologia baseia-se na plataforma Gemini Robotics lançada em março, que trouxe raciocínio multimodal e compreensão do mundo real às máquinas através do framework Gemini 2.0.
O modelo no dispositivo oferece capacidades impressionantes, apesar de funcionar localmente. Nos testes da Google, apresenta um desempenho próximo do modelo Gemini Robotics baseado na cloud, superando outras alternativas no dispositivo, especialmente em tarefas fora da distribuição e instruções complexas de múltiplos passos.
"Como o modelo funciona de forma independente de uma rede de dados, é útil para aplicações sensíveis à latência e garante robustez em ambientes com conectividade intermitente ou inexistente", afirmou a Google DeepMind no seu anúncio.
O Gemini Robotics On-Device demonstra uma forte destreza de uso geral em vários cenários de teste. Em demonstrações, robôs equipados com o modelo conseguiram completar tarefas altamente complexas, como abrir fechos de malas e dobrar roupa, sem assistência da cloud. O sistema compreende comandos em linguagem natural e adapta-se a ambientes em mudança em tempo real.
A Google está também a disponibilizar um SDK do Gemini Robotics para ajudar os programadores a avaliar e personalizar o modelo. Destaca-se que este é o primeiro modelo VLA da Google disponível para afinação, permitindo que os programadores o adaptem a aplicações específicas com apenas 50 a 100 demonstrações.
Inicialmente treinado para robôs ALOHA, a Google já adaptou o modelo para funcionar com outras plataformas, incluindo o robô bi-braço Franka FR3 e o robô humanóide Apollo da Apptronik. Esta versatilidade sugere um vasto leque de aplicações potenciais em sectores que vão da indústria à saúde.
Este desenvolvimento surge numa altura em que a concorrência na robótica alimentada por IA se intensifica, com empresas como a Nvidia, Hugging Face e RLWRLD a trabalharem em modelos fundacionais para robôs. A abordagem da Google no dispositivo responde a uma limitação crítica do sector, ao permitir que os robôs funcionem eficazmente em ambientes onde a conectividade à cloud é impraticável ou impossível.