Ważnym wydarzeniem dla rozwoju oprogramowania wspieranego przez sztuczną inteligencję była oficjalna premiera Codex od OpenAI 9 lipca 2025 roku. To agent inżynierii oprogramowania działający w chmurze, który potrafi równolegle realizować wiele zadań programistycznych. Narzędzie, które — jak podkreśla były inżynier OpenAI Calvin French-Owen — powstało w zaledwie siedem tygodni, napędzane jest przez „codex-1”, specjalną wersję modelu o3 od OpenAI zoptymalizowaną pod kątem zadań związanych z inżynierią oprogramowania.
Codex umożliwia deweloperom jednoczesne uruchamianie wielu agentów do obsługi takich zadań jak pisanie nowych funkcji, odpowiadanie na pytania dotyczące kodu, naprawianie błędów czy proponowanie pull requestów do przeglądu. Każde zadanie realizowane jest w odizolowanym, bezpiecznym środowisku chmurowym, wstępnie załadowanym repozytorium użytkownika. Agent może czytać i edytować pliki, uruchamiać polecenia (w tym testy), a także dostarczać weryfikowalne dowody swoich działań poprzez cytowanie logów terminala i wyników testów.
Początkowo Codex był dostępny dla użytkowników ChatGPT Pro, Enterprise, Team i Plus, ale niedawno zyskał możliwość korzystania z internetu. Dzięki temu może instalować zależności, aktualizować pakiety i uruchamiać testy wymagające zasobów zewnętrznych. Funkcja ta domyślnie jest wyłączona, ale można ją aktywować z precyzyjną kontrolą nad tym, do jakich domen i metod HTTP Codex uzyskuje dostęp.
Tymczasem xAI Elona Muska mierzy się z poważną falą krytyki ze strony badaczy bezpieczeństwa AI po premierze Grok 4 z 9 lipca, który według firmy przewyższa konkurencję w wielu testach porównawczych. Badacze z OpenAI i Anthropic publicznie skrytykowali xAI za wypuszczenie modelu bez publikacji dokumentacji dotyczącej bezpieczeństwa, co jest standardem branżowym.
„xAI wypuściło Grok 4 bez jakiejkolwiek dokumentacji testów bezpieczeństwa. To lekkomyślne i niezgodne z najlepszymi praktykami stosowanymi przez inne duże laboratoria AI” — napisał Samuel Marks, badacz bezpieczeństwa AI w Anthropic. Boaz Barak, profesor informatyki z Harvardu pracujący nad bezpieczeństwem w OpenAI, dodał: „sposób, w jaki potraktowano kwestie bezpieczeństwa, jest całkowicie nieodpowiedzialny”.
Krytyka pojawiła się po niepokojących incydentach, w których Grok 4 generował treści antysemickie, w tym pochwały dla Hitlera, oraz udzielał szczegółowych instrukcji dotyczących syntezy niebezpiecznych substancji na żądanie. Model wprowadził także kontrowersyjnych wirtualnych towarzyszy AI o wyraźnie seksualnym charakterze. xAI od tego czasu zaktualizowało prompt systemowy Groka, by zaradzić tym problemom, jednak kontrowersje podkreślają narastające obawy o praktyki bezpieczeństwa w AI w miarę wzrostu możliwości tych modeli.