Google baut seine KI-Fähigkeiten weiter aus, indem es die Computer-Nutzungsfunktionen von Project Mariner in die Gemini API und die Vertex AI-Plattformen integriert. Dies stellt einen wichtigen Schritt in der Entwicklung agentischer KI-Systeme dar.
Project Mariner, erstmals Ende 2024 vorgestellt, ist ein Forschungsprototyp von Google DeepMind, der die Interaktion zwischen Mensch und KI-Agent über Webbrowser erforscht. Das System kann erkennen, was im Browser angezeigt wird, komplexe Ziele interpretieren, umsetzbare Schritte planen und Websites eigenständig navigieren, um Aufgaben zu erledigen. Es ist in der Lage, mehrere Vorgänge gleichzeitig zu bearbeiten; die aktuelle Version kann bis zu zehn verschiedene Aufgaben parallel ausführen.
Mehrere Technologieunternehmen untersuchen bereits das Potenzial von Project Mariner. Automation Anywhere, ein führender Anbieter im Bereich agentischer Prozessautomatisierung, sowie UiPath, bekannt für seine Automatisierungsplattform, gehören zu den frühen Anwendern. Weitere Partner sind Browserbase, das KI-Frameworks für Browserautomatisierung entwickelt, Autotab, The Interaction Company und Cartwheel, eine 2023 gegründete Plattform für Text-zu-Animation.
Die Integration in Gemini API und Vertex AI ermöglicht es Entwicklern, Anwendungen mit diesen Agentenfähigkeiten zu erstellen. Zudem hat Google die Sicherheitsmaßnahmen deutlich verbessert, insbesondere gegen Bedrohungen wie indirekte Prompt-Injektionen, und macht Gemini 2.5 zur bislang sichersten Modellfamilie.
Abonnenten von Google AI Ultra in den USA haben bereits Zugriff auf Project Mariner; ein breiterer Zugang für Entwickler ist für diesen Sommer geplant. Darüber hinaus bringt Google einige Funktionen von Mariner in andere Produkte, darunter den KI-Modus in Search Labs, wo Aufgaben wie der Kauf von Veranstaltungstickets oder das Reservieren von Restaurantplätzen ermöglicht werden.
Diese Entwicklung stellt einen grundlegenden Wandel in der Interaktion der Nutzer mit dem Internet dar: Künftig könnten Aufgaben zunehmend an KI-Agenten delegiert werden, statt direkt mit Websites zu interagieren. Mit der weiteren Reife dieser Technologien könnten sie die Automatisierung in verschiedensten Branchen revolutionieren und völlig neue Anwendungsfelder für KI-Assistenten eröffnen.