Google DeepMind сделала значительный шаг к созданию более умных и независимых роботов, выпустив Gemini Robotics On-Device — мощную систему искусственного интеллекта, полностью функционирующую непосредственно на самом роботе, а не в облаке.
Представленная 24 июня 2025 года, эта модель типа «зрение-язык-действие» (VLA) стала важным достижением в области ИИ для робототехники, устранив необходимость постоянного интернет-соединения. Технология основана на платформе Gemini Robotics, запущенной в марте, которая принесла многомодальное рассуждение и понимание реального мира в машины благодаря фреймворку Gemini 2.0.
Несмотря на локальное выполнение, модель демонстрирует впечатляющие возможности. По результатам тестов Google, она работает почти на уровне облачной версии Gemini Robotics и превосходит другие локальные решения, особенно при выполнении сложных, нестандартных задач и многошаговых инструкций.
«Поскольку модель работает независимо от передачи данных, она полезна для приложений, чувствительных к задержкам, и обеспечивает устойчивость в условиях нестабильного или отсутствующего подключения», — говорится в заявлении Google DeepMind.
Gemini Robotics On-Device демонстрирует высокую универсальную ловкость в различных тестовых сценариях. В демонстрациях роботы, оснащённые этой моделью, успешно выполняли задачи, требующие высокой точности, такие как расстёгивание молний на сумках и складывание одежды, без обращения к облаку. Система понимает команды на естественном языке и способна адаптироваться к изменяющимся условиям в реальном времени.
Google также выпускает SDK Gemini Robotics, чтобы помочь разработчикам тестировать и настраивать модель. Важно отметить, что это первая VLA-модель Google, доступная для дообучения: разработчики могут адаптировать её под конкретные задачи, используя всего 50–100 демонстраций.
Изначально обученная для роботов ALOHA, модель уже была адаптирована для работы с другими платформами, включая двухрукого робота Franka FR3 и гуманоидного робота Apollo от Apptronik. Такая универсальность открывает широкие перспективы применения — от промышленности до здравоохранения.
Разработка выходит на фоне растущей конкуренции на рынке робототехники с ИИ: такие компании, как Nvidia, Hugging Face и RLWRLD, также работают над базовыми моделями для роботов. Локальный подход Google решает одну из ключевых проблем отрасли, позволяя роботам эффективно функционировать там, где облачное подключение невозможно или нецелесообразно.