Google DeepMind通过发布Gemini Robotics On-Device,向让机器人变得更智能、更独立迈出了重要一步。这是一套强大的AI系统,完全在机器人本地运行,无需依赖云端。
该视觉-语言-动作(VLA)模型于2025年6月24日发布,是机器人AI领域的一次重大突破,因为它无需持续的互联网连接。该技术基于谷歌3月推出的Gemini Robotics平台,通过Gemini 2.0框架为机器带来了多模态推理和现实世界理解能力。
尽管在本地运行,端侧模型依然展现出令人印象深刻的能力。在谷歌的基准测试中,其表现接近云端Gemini Robotics模型,并在应对分布外任务和复杂多步指令时,优于其他端侧替代方案。
“由于该模型可独立于数据网络运行,非常适用于对延迟敏感的应用,并确保在网络间歇或无连接环境下的鲁棒性。”Google DeepMind在公告中表示。
Gemini Robotics On-Device在多种测试场景下展现出强大的通用灵巧性。在演示中,搭载该模型的机器人无需云端协助,成功完成了如拉开拉链、折叠衣物等高难度操作。该系统能够理解自然语言指令,并实时适应环境变化。
谷歌还发布了Gemini Robotics SDK,帮助开发者评估和定制该模型。值得一提的是,这是谷歌首次开放可微调的VLA模型,开发者仅需50到100次演示即可将其适配到特定应用场景。
该模型最初为ALOHA机器人训练,谷歌已将其适配到其他平台,包括双臂Franka FR3机器人和Apptronik的Apollo人形机器人。这种多平台适应性预示着其在制造、医疗等多个行业的广泛应用潜力。
随着Nvidia、Hugging Face和RLWRLD等公司也在研发机器人基础模型,AI机器人领域的竞争日益激烈。谷歌的端侧方案解决了机器人在云连接不可行或不现实环境下的关键限制,使其能够高效自主地运行。