Google объявила о масштабном расширении своей системы искусственного интеллекта Project Mariner, предоставив разработчикам доступ к функциям управления компьютером через платформы Gemini API и Vertex AI.
Впервые представленный в конце 2024 года, Project Mariner является амбициозной инициативой Google по преобразованию взаимодействия пользователей с цифровыми интерфейсами с помощью ИИ-агентов. Система способна понимать и анализировать информацию, отображаемую на экране компьютера, включая текст, изображения, программный код и веб-формы, а затем автономно перемещаться по сайтам и выполнять сложные задачи.
Последняя версия Project Mariner была существенно доработана и теперь может работать на виртуальных машинах в облаке, аналогично агентам от OpenAI и Amazon. Такой облачный подход позволяет пользователям заниматься другими проектами, пока Project Mariner выполняет задачи в фоновом режиме, обрабатывая до десяти различных операций одновременно — это значительное улучшение по сравнению с предыдущей версией, работавшей в браузере.
Ряд компаний уже исследует потенциал Project Mariner, среди них специалисты по автоматизации Automation Anywhere и UiPath, а также Browserbase, Autotab, The Interaction Company и Cartwheel. Эти первые пользователи используют технологию для автоматизации сложных веб-процессов, которые ранее требовали значительного участия человека.
Google также внедрила усовершенствованные меры безопасности для защиты от угроз, таких как косвенные инъекции подсказок, когда вредоносные инструкции могут быть внедрены в данные, получаемые ИИ-моделями. По данным Google, эти улучшения значительно повысили уровень защиты Gemini при использовании инструментов, делая семейство моделей Gemini 2.5 самым безопасным на сегодняшний день.
Более широкий доступ к возможностям Project Mariner для разработчиков запланирован на это лето, что потенциально может революционизировать создание ИИ-приложений, способных управлять компьютерными интерфейсами и взаимодействовать с ними. Технология также интегрируется в режим AI Mode поиска Google, где изначально будет выполнять такие задачи, как покупка билетов на мероприятия, бронирование столиков в ресторанах и запись на местные услуги.