구글 딥마인드는 클라우드가 아닌 로봇 자체에서 완전히 작동하는 강력한 AI 시스템 '제미니 로보틱스 온디바이스'를 출시하며 로봇의 지능과 독립성을 한 단계 끌어올렸다.
2025년 6월 24일 공개된 이 비전-언어-행동(VLA) 모델은 지속적인 인터넷 연결이 필요 없는 점에서 로보틱스 AI 분야의 큰 진전을 의미한다. 이 기술은 3월에 출시된 구글의 제미니 로보틱스 플랫폼을 기반으로 하며, 제미니 2.0 프레임워크를 통해 기계에 멀티모달 추론과 실세계 이해 능력을 부여했다.
온디바이스 모델은 로컬에서 실행됨에도 불구하고 인상적인 성능을 보여준다. 구글의 벤치마크에 따르면, 클라우드 기반 제미니 로보틱스 모델과 거의 유사한 수준의 성능을 내며, 특히 까다로운 분포 외(out-of-distribution) 작업이나 복잡한 다단계 지시에서 다른 온디바이스 대안보다 뛰어난 결과를 보였다.
구글 딥마인드는 "이 모델은 데이터 네트워크와 독립적으로 작동하기 때문에 지연 시간에 민감한 애플리케이션에 유용하며, 연결이 불안정하거나 전혀 없는 환경에서도 견고함을 보장한다"고 밝혔다.
제미니 로보틱스 온디바이스는 다양한 테스트 시나리오에서 범용적인 기민함을 입증했다. 시연에서는 이 모델을 탑재한 로봇이 클라우드의 도움 없이 가방의 지퍼를 여는 일이나 옷을 개는 등 고난도의 작업을 성공적으로 수행했다. 이 시스템은 자연어 명령을 이해하고, 실시간으로 변화하는 환경에 적응할 수 있다.
구글은 개발자들이 모델을 평가하고 맞춤화할 수 있도록 '제미니 로보틱스 SDK'도 함께 공개한다. 특히 이번에 구글이 최초로 파인튜닝이 가능한 VLA 모델을 제공함에 따라, 개발자들은 50~100회 정도의 시연만으로도 특정 애플리케이션에 맞게 모델을 손쉽게 조정할 수 있다.
초기에는 ALOHA 로봇을 위해 훈련된 이 모델은 이미 양팔 로봇 프랑카 FR3, 휴머노이드 로봇 앱트로닉 아폴로 등 다양한 플랫폼에 적용됐다. 이러한 범용성은 제조업부터 헬스케어까지 산업 전반에 걸친 광범위한 활용 가능성을 시사한다.
이번 개발은 엔비디아, 허깅페이스, RLWRLD 등 다양한 기업들이 로봇용 AI 기반 모델을 개발하며 경쟁이 치열해지는 가운데 나왔다. 구글의 온디바이스 접근법은 클라우드 연결이 어렵거나 불가능한 환경에서도 로봇이 효과적으로 작동할 수 있도록 함으로써, 로보틱스 분야의 중요한 한계를 극복했다.