O Google anunciou uma grande expansão do seu sistema de IA, o Project Mariner, trazendo suas capacidades de controle de computadores para desenvolvedores por meio das plataformas Gemini API e Vertex AI.
Revelado pela primeira vez no final de 2024, o Project Mariner representa o esforço ambicioso do Google para transformar a forma como os usuários interagem com interfaces digitais por meio de agentes de IA. O sistema é capaz de compreender e raciocinar sobre informações exibidas na tela do computador, incluindo textos, imagens, códigos e formulários web, navegando autonomamente por sites e realizando tarefas complexas.
A versão mais recente do Project Mariner foi significativamente aprimorada para rodar em máquinas virtuais na nuvem, de forma semelhante aos agentes da OpenAI e da Amazon. Essa abordagem baseada em nuvem permite que os usuários trabalhem em outros projetos enquanto o Project Mariner executa tarefas em segundo plano, gerenciando até dez operações diferentes simultaneamente — uma melhoria substancial em relação à versão anterior, que rodava no navegador.
Diversas empresas já estão explorando o potencial do Project Mariner, incluindo especialistas em automação como Automation Anywhere e UiPath, além da Browserbase, Autotab, The Interaction Company e Cartwheel. Esses primeiros usuários estão aproveitando a capacidade da tecnologia de automatizar fluxos de trabalho complexos baseados na web, que antes exigiam grande intervenção humana.
O Google também implementou medidas avançadas de segurança para proteger contra ameaças como injeções indiretas de prompts, em que instruções maliciosas podem ser inseridas em dados recuperados por modelos de IA. Segundo o Google, esses aprimoramentos de segurança aumentaram significativamente a taxa de proteção do Gemini durante o uso de ferramentas, tornando o Gemini 2.5 a família de modelos mais segura da empresa até o momento.
O acesso ampliado para desenvolvedores às capacidades do Project Mariner está previsto para este verão, com potencial para revolucionar a forma como desenvolvedores constroem aplicações de IA capazes de controlar e interagir com interfaces de computador. A tecnologia também está sendo integrada ao Modo IA da Busca do Google, onde inicialmente irá executar tarefas como compra de ingressos para eventos, reservas em restaurantes e agendamento de compromissos locais.