menu
close

Google erweitert KI-Computersteuerung für Entwickler über Gemini

Google integriert die Computersteuerungsfunktionen von Project Mariner in die Gemini-API und Vertex AI, sodass Entwickler Anwendungen erstellen können, die eigenständig Web-Oberflächen navigieren und mit ihnen interagieren. Unternehmen wie Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company und Cartwheel testen diese Möglichkeiten bereits. Ein breiterer Zugang für Entwickler ist für diesen Sommer geplant. Diese Erweiterung stellt einen bedeutenden Fortschritt in Googles KI-Agententechnologie dar.
Google erweitert KI-Computersteuerung für Entwickler über Gemini

Google hat eine bedeutende Erweiterung seines KI-Systems Project Mariner angekündigt und bringt dessen Computersteuerungsfunktionen über die Gemini-API und die Vertex-AI-Plattformen zu Entwicklern.

Project Mariner, erstmals Ende 2024 vorgestellt, steht für Googles ambitioniertes Vorhaben, die Interaktion von Nutzern mit digitalen Oberflächen durch KI-Agenten grundlegend zu verändern. Das System ist in der Lage, Informationen auf einem Computerbildschirm – darunter Text, Bilder, Code und Webformulare – zu verstehen und zu verarbeiten, um anschließend eigenständig Websites zu navigieren und komplexe Aufgaben zu erledigen.

Die neueste Version von Project Mariner wurde deutlich weiterentwickelt und läuft nun auf virtuellen Maschinen in der Cloud, ähnlich wie die Agenten von OpenAI und Amazon. Dieser Cloud-basierte Ansatz ermöglicht es Nutzern, parallel an anderen Projekten zu arbeiten, während Project Mariner Aufgaben im Hintergrund erledigt – und das mit bis zu zehn parallelen Operationen gleichzeitig. Dies stellt eine erhebliche Verbesserung gegenüber der Vorgängerversion dar, die im Browser lief.

Mehrere Unternehmen testen bereits das Potenzial von Project Mariner, darunter die Automatisierungsspezialisten Automation Anywhere und UiPath sowie Browserbase, Autotab, The Interaction Company und Cartwheel. Diese Early Adopters nutzen die Technologie, um komplexe, webbasierte Arbeitsabläufe zu automatisieren, die bislang umfangreiche menschliche Eingriffe erforderten.

Google hat zudem fortschrittliche Sicherheitsmaßnahmen implementiert, um Bedrohungen wie indirekte Prompt-Injections abzuwehren, bei denen schädliche Anweisungen in von KI-Modellen abgerufenen Daten eingebettet sein könnten. Laut Google haben diese Sicherheitsverbesserungen die Schutzrate von Gemini bei der Tool-Nutzung deutlich erhöht, sodass Gemini 2.5 die bislang sicherste Modellfamilie des Unternehmens darstellt.

Ein breiterer Zugang für Entwickler zu den Fähigkeiten von Project Mariner ist für diesen Sommer geplant und könnte die Entwicklung von KI-Anwendungen, die Computeroberflächen steuern und mit ihnen interagieren, grundlegend verändern. Die Technologie wird zudem in den KI-Modus der Google-Suche integriert, wo sie zunächst Aufgaben wie den Kauf von Veranstaltungstickets, das Reservieren von Restaurantplätzen und das Buchen lokaler Termine übernehmen soll.

Source:

Latest News