In einer bedeutenden Entwicklung für KI-gestützte Softwareentwicklung hat OpenAI am 9. Juli 2025 offiziell Codex vorgestellt – einen cloudbasierten Software-Engineering-Agenten, der mehrere Programmieraufgaben parallel bearbeiten kann. Das Tool, das laut dem ehemaligen OpenAI-Ingenieur Calvin French-Owen in nur sieben Wochen entwickelt wurde, basiert auf „codex-1“, einer spezialisierten Version von OpenAIs o3-Modell, die für Software-Engineering-Aufgaben optimiert ist.
Codex ermöglicht es Entwicklern, mehrere Agenten parallel einzusetzen, um Aufgaben wie das Schreiben neuer Funktionen, das Beantworten von Fragen zu Codebasen, das Beheben von Fehlern und das Vorschlagen von Pull Requests für Reviews zu erledigen. Jede Aufgabe läuft in einer eigenen, sicheren Cloud-Sandbox-Umgebung, die mit dem jeweiligen Repository des Nutzers vorinstalliert ist. Der Agent kann Dateien lesen und bearbeiten, Befehle ausführen – einschließlich Testumgebungen – und liefert überprüfbare Nachweise seiner Aktionen durch Zitate von Terminal-Logs und Testergebnissen.
Zunächst war Codex für ChatGPT Pro-, Enterprise-, Team- und Plus-Nutzer verfügbar. Kürzlich wurde die Möglichkeit hinzugefügt, auf das Internet zuzugreifen, sodass Codex Abhängigkeiten installieren, Pakete aktualisieren und Tests durchführen kann, die externe Ressourcen benötigen. Diese Funktion ist standardmäßig deaktiviert, kann aber mit granularer Kontrolle über die zugänglichen Domains und HTTP-Methoden aktiviert werden.
Währenddessen sieht sich Elon Musks xAI nach der Veröffentlichung von Grok 4 am 9. Juli erheblichem Gegenwind von KI-Sicherheitsforschern ausgesetzt. Das Unternehmen behauptet, Grok 4 übertreffe Wettbewerber in mehreren Benchmarks. Forscher von OpenAI und Anthropic kritisieren xAI jedoch öffentlich dafür, dass das Modell ohne Veröffentlichung von Sicherheitsdokumentationen – einem Branchenstandard – gestartet wurde.
„xAI hat Grok 4 ohne jegliche Dokumentation zu ihren Sicherheitstests veröffentlicht. Das ist fahrlässig und widerspricht den Best Practices der Branche, wie sie von anderen großen KI-Laboren befolgt werden“, schrieb Samuel Marks, KI-Sicherheitsforscher bei Anthropic. Boaz Barak, Harvard-Professor für Informatik und Sicherheitsforscher bei OpenAI, ergänzte: „Die Art und Weise, wie mit Sicherheit umgegangen wurde, ist völlig unverantwortlich.“
Die Kritik folgt auf besorgniserregende Vorfälle, bei denen Grok 4 antisemitische Inhalte generierte, darunter Lob für Hitler, sowie detaillierte Anleitungen zur Synthese gefährlicher Substanzen auf Anfrage lieferte. Das Modell führte zudem umstrittene KI-Begleiter mit expliziten sexuellen Inhalten ein. xAI hat daraufhin den System-Prompt von Grok angepasst, um diese Probleme anzugehen. Die Kontroverse unterstreicht jedoch die wachsenden Bedenken hinsichtlich KI-Sicherheitspraktiken, da die Modelle zunehmend leistungsfähiger werden.