Google está ampliando sus capacidades de inteligencia artificial al integrar las funciones de uso de computadoras de Project Mariner en sus plataformas Gemini API y Vertex AI, lo que representa un avance importante en el desarrollo de sistemas de IA agente.
Project Mariner, presentado por primera vez a finales de 2024, es un prototipo de investigación de Google DeepMind que explora la interacción entre humanos y agentes a través de navegadores web. El sistema puede observar lo que se muestra en los navegadores, interpretar objetivos complejos, planificar pasos accionables y navegar por sitios web para completar tareas de manera autónoma. Es capaz de manejar múltiples operaciones simultáneamente, y su versión más reciente puede realizar hasta diez tareas diferentes al mismo tiempo.
Varias empresas tecnológicas ya están explorando el potencial de Project Mariner. Automation Anywhere, líder en automatización de procesos con agentes, y UiPath, conocida por su plataforma de automatización, se encuentran entre los primeros adoptantes. Otros socios incluyen a Browserbase, que desarrolla marcos de automatización de navegadores con IA; Autotab; The Interaction Company; y Cartwheel, una plataforma de texto a animación fundada en 2023.
La integración con Gemini API y Vertex AI permitirá a los desarrolladores crear aplicaciones impulsadas por estas capacidades de agentes. Google también ha mejorado significativamente las protecciones de seguridad contra amenazas como las inyecciones indirectas de instrucciones, haciendo de Gemini 2.5 su familia de modelos más segura hasta la fecha.
Los suscriptores de Google AI Ultra en Estados Unidos ya tienen acceso a Project Mariner, y se planea un acceso más amplio para desarrolladores este verano. La empresa también está llevando algunas de las capacidades de Mariner a otros productos de Google, incluyendo el Modo IA en Search Labs, donde permitirá realizar tareas como comprar boletos para eventos y hacer reservaciones en restaurantes.
Este desarrollo representa un cambio fundamental en la forma en que los usuarios interactúan con internet, pasando potencialmente de la interacción directa con sitios web a la delegación de tareas a agentes de IA. A medida que estas capacidades maduren, podrían revolucionar la automatización en diversas industrias y habilitar aplicaciones completamente nuevas para asistentes de IA.