Google DeepMind зробила значний крок до створення розумніших і незалежніших роботів, випустивши Gemini Robotics On-Device — потужну систему штучного інтелекту, яка працює повністю на самому роботі, а не у хмарі.
Презентована 24 червня 2025 року, ця модель типу vision-language-action (VLA) є важливим досягненням у сфері робототехнічного ШІ, оскільки усуває потребу у постійному підключенні до Інтернету. Технологія базується на платформі Gemini Robotics, запущеній у березні, яка принесла машинам мультимодальне мислення та розуміння реального світу завдяки фреймворку Gemini 2.0.
Локальна модель демонструє вражаючі можливості, незважаючи на роботу безпосередньо на пристрої. За результатами тестів Google, вона показує продуктивність, близьку до хмарної версії Gemini Robotics, і перевершує інші локальні альтернативи, особливо у складних завданнях поза навчальним розподілом та при виконанні багатокрокових інструкцій.
«Оскільки модель працює незалежно від мережі передачі даних, вона корисна для застосувань із чутливістю до затримок і забезпечує надійність у середовищах з нестабільним або відсутнім підключенням», — зазначили в Google DeepMind у своєму анонсі.
Gemini Robotics On-Device демонструє універсальну спритність у різних тестових сценаріях. Під час демонстрацій роботи на базі цієї моделі успішно виконували складні завдання, такі як розстібання сумок і складання одягу, без допомоги хмари. Система розуміє команди природною мовою та адаптується до змін у навколишньому середовищі в режимі реального часу.
Google також випускає SDK для Gemini Robotics, щоб допомогти розробникам оцінювати й налаштовувати модель. Важливо, що це перша VLA-модель Google, яку можна донавчати, дозволяючи адаптувати її до конкретних застосувань на основі всього 50–100 демонстрацій.
Спочатку модель тренували для роботів ALOHA, але Google вже адаптувала її для інших платформ, зокрема дворукого робота Franka FR3 та людиноподібного робота Apollo від Apptronik. Така універсальність відкриває широкі перспективи для застосування у різних галузях — від виробництва до медицини.
Цей розвиток відбувається на тлі посилення конкуренції у сфері робототехніки на базі ШІ: над базовими моделями для роботів працюють також Nvidia, Hugging Face і RLWRLD. Локальний підхід Google вирішує ключове обмеження галузі, дозволяючи роботам ефективно функціонувати там, де хмарне підключення є недоцільним або неможливим.