Google está ampliando sus capacidades de inteligencia artificial mediante la integración de las funciones de uso de ordenadores de Project Mariner en sus plataformas Gemini API y Vertex AI, lo que representa un gran paso adelante en el desarrollo de sistemas de IA agentica.
Project Mariner, presentado por primera vez a finales de 2024, es un prototipo de investigación de Google DeepMind que explora la interacción entre humanos y agentes a través de navegadores web. El sistema puede observar lo que se muestra en los navegadores, interpretar objetivos complejos, planificar pasos accionables y navegar por sitios web para completar tareas de forma autónoma. Es capaz de gestionar múltiples operaciones simultáneamente, y la versión más reciente puede completar hasta diez tareas diferentes a la vez.
Varias empresas tecnológicas ya están explorando el potencial de Project Mariner. Automation Anywhere, líder en automatización de procesos agenticos, y UiPath, conocida por su plataforma de automatización, se encuentran entre los primeros en adoptarlo. Otros socios incluyen Browserbase, que desarrolla marcos de automatización de navegadores con IA, Autotab, The Interaction Company y Cartwheel, una plataforma de texto a animación fundada en 2023.
La integración con Gemini API y Vertex AI permitirá a los desarrolladores crear aplicaciones impulsadas por estas capacidades agenticas. Google también ha reforzado significativamente las protecciones de seguridad contra amenazas como las inyecciones indirectas de prompts, convirtiendo a Gemini 2.5 en su familia de modelos más segura hasta la fecha.
Los suscriptores de Google AI Ultra en Estados Unidos ya tienen acceso a Project Mariner, y se prevé un acceso más amplio para desarrolladores este verano. La compañía también está incorporando algunas de las capacidades de Mariner a otros productos de Google, incluido el Modo IA en Search Labs, donde permitirá realizar tareas como comprar entradas para eventos y reservar en restaurantes.
Este avance representa un cambio fundamental en la forma en que los usuarios interactúan con Internet, pasando potencialmente de la interacción directa con sitios web a delegar tareas en agentes de IA. A medida que estas capacidades maduren, podrían revolucionar la automatización en todos los sectores y permitir nuevas aplicaciones para los asistentes de IA.