O Google está ampliando suas capacidades de inteligência artificial ao integrar as funcionalidades de uso de computador do Project Mariner às plataformas Gemini API e Vertex AI, representando um grande avanço no desenvolvimento de sistemas de IA agente.
O Project Mariner, apresentado pela primeira vez no final de 2024, é um protótipo de pesquisa do Google DeepMind que explora a interação entre humanos e agentes por meio de navegadores web. O sistema é capaz de observar o que está sendo exibido nos navegadores, interpretar objetivos complexos, planejar etapas acionáveis e navegar por sites para concluir tarefas de forma autônoma. Ele consegue realizar múltiplas operações simultaneamente, sendo que a versão mais recente é capaz de executar até dez tarefas diferentes ao mesmo tempo.
Diversas empresas de tecnologia já estão explorando o potencial do Project Mariner. A Automation Anywhere, líder em automação de processos com IA agente, e a UiPath, conhecida por sua plataforma de automação, estão entre as primeiras a adotar a tecnologia. Outros parceiros incluem a Browserbase, que desenvolve frameworks de automação de navegadores com IA, a Autotab, a The Interaction Company e a Cartwheel, uma plataforma de texto para animação fundada em 2023.
A integração com a Gemini API e o Vertex AI permitirá que desenvolvedores criem aplicações impulsionadas por essas capacidades de agentes. O Google também aprimorou significativamente as proteções de segurança contra ameaças como injeções indiretas de comandos, tornando a família de modelos Gemini 2.5 a mais segura até o momento.
Assinantes do Google AI Ultra nos Estados Unidos já têm acesso ao Project Mariner, com uma ampliação do acesso para desenvolvedores prevista para este verão. A empresa também está trazendo algumas das funcionalidades do Mariner para outros produtos do Google, incluindo o Modo IA no Search Labs, onde será possível realizar tarefas como comprar ingressos para eventos e fazer reservas em restaurantes.
Esse desenvolvimento representa uma mudança fundamental na forma como os usuários interagem com a internet, potencialmente migrando da interação direta com sites para a delegação de tarefas a agentes de IA. À medida que essas capacidades amadurecem, elas podem revolucionar a automação em diversos setores e possibilitar novas aplicações para assistentes de IA.