OpenAI hat mit der Einführung des ChatGPT Agent einen bedeutenden Fortschritt im Bereich der künstlichen Intelligenz erzielt. Das System ist in der Lage, komplexe Aufgaben eigenständig von Anfang bis Ende mit Hilfe eines eigenen virtuellen Computers zu erledigen.
Der neue Agent, der am 17. Juli 2025 angekündigt wurde, steht für einen einheitlichen Ansatz, der drei zuvor getrennte Fähigkeiten vereint: die Möglichkeit von Operator, mit Websites durch Klicken, Scrollen und Tippen zu interagieren; die Kompetenz von Deep Research, Informationen aus dem gesamten Web zu synthetisieren; sowie die Konversationsintelligenz von ChatGPT. Diese Integration behebt die Einschränkungen früherer Tools, die zwar isoliert gut funktionierten, aber keine durchgängigen Arbeitsabläufe bewältigen konnten.
Angetrieben von GPT-4o, dem multimodalen Flaggschiff-Modell von OpenAI, kann ChatGPT Agent anspruchsvolle Anfragen bearbeiten wie „analysiere drei Wettbewerber und erstelle eine Präsentation“ oder „sieh dir meinen Kalender an und informiere mich über bevorstehende Kundentermine auf Basis aktueller Nachrichten“. Das System navigiert sowohl visuell als auch textbasiert durch Websites, füllt Formulare aus, greift mit Nutzererlaubnis auf autorisierte Konten zu, führt Code aus und erstellt editierbare Dokumente wie Tabellen und Präsentationen.
In Benchmark-Tests übertrifft ChatGPT Agent frühere OpenAI-Tools deutlich. Bei Modellierungsaufgaben für Investmentbanking-Analysten schlägt es sowohl Deep Research als auch das o3-Modell. Im BrowseComp-Benchmark, der das Auffinden schwer zugänglicher Informationen misst, erreichte der Agent mit 68,9 % einen neuen Bestwert – 17,4 Prozentpunkte mehr als Deep Research.
Trotz seiner Leistungsfähigkeit betont OpenAI, dass die Nutzer stets die Kontrolle behalten. Der Agent fragt vor wichtigen Aktionen nach Erlaubnis, und Anwender können den Prozess jederzeit unterbrechen, die Steuerung des Browsers übernehmen oder Aufgaben stoppen. Ab sofort können Pro-, Plus- und Team-Nutzer diese Funktionen über das Dropdown-Menü „Tools“ aktivieren, indem sie in jeder Unterhaltung den „Agentenmodus“ auswählen.
Dieser Launch markiert OpenAIs bislang mutigsten Versuch, ChatGPT von einem reinen Frage-Antwort-Tool zu einem agentenbasierten Produkt weiterzuentwickeln, das eigenständig handeln und komplexe Aufgaben für die Nutzer übernehmen kann. Während frühe KI-Agenten oft an komplexen Aufgaben scheiterten, behauptet OpenAI, dass ChatGPT Agent deutlich leistungsfähiger als bisherige Lösungen ist und durch regelmäßige Verbesserungen künftig noch nützlicher werden soll.