In een belangrijke ontwikkeling voor AI-gedreven softwareontwikkeling heeft OpenAI op 9 juli 2025 officieel Codex gelanceerd, een cloudgebaseerde software-engineeringagent die meerdere programmeertaken parallel kan uitvoeren. Het hulpmiddel, dat opmerkelijk genoeg in slechts zeven weken werd gebouwd volgens voormalig OpenAI-ingenieur Calvin French-Owen, draait op 'codex-1', een gespecialiseerde versie van OpenAI's o3-model die is geoptimaliseerd voor softwareontwikkelingstaken.
Codex stelt ontwikkelaars in staat om meerdere agenten tegelijk in te zetten voor taken zoals het schrijven van features, het beantwoorden van vragen over codebases, het oplossen van bugs en het voorstellen van pull requests ter beoordeling. Elke taak draait in een eigen beveiligde cloud-sandboxomgeving die vooraf is geladen met de repository van de gebruiker. De agent kan bestanden lezen en bewerken, commando's uitvoeren (inclusief testomgevingen), en verifieerbaar bewijs leveren van zijn acties door middel van verwijzingen naar terminal-logs en testresultaten.
Aanvankelijk was Codex beschikbaar voor ChatGPT Pro-, Enterprise-, Team- en Plus-gebruikers, maar recentelijk is er internettoegang toegevoegd. Hierdoor kan Codex afhankelijkheden installeren, pakketten upgraden en tests uitvoeren die externe bronnen vereisen. Deze functie staat standaard uit, maar kan worden ingeschakeld met gedetailleerde controle over welke domeinen en HTTP-methoden Codex mag benaderen.
Ondertussen krijgt Elon Musks xAI forse kritiek van AI-veiligheidsonderzoekers na de release van Grok 4 op 9 juli, waarvan het bedrijf beweert dat het beter presteert dan concurrenten op verschillende benchmarks. Onderzoekers van OpenAI en Anthropic hebben xAI publiekelijk bekritiseerd omdat het Grok 4 heeft gelanceerd zonder veiligheidsdocumentatie te publiceren, wat een gangbare praktijk is in de sector.
"xAI heeft Grok 4 gelanceerd zonder enige documentatie over hun veiligheidstesten. Dit is roekeloos en wijkt af van de best practices die andere grote AI-labs hanteren," schreef Samuel Marks, AI-veiligheidsonderzoeker bij Anthropic. Boaz Barak, hoogleraar informatica aan Harvard en veiligheidsonderzoeker bij OpenAI, voegde daaraan toe dat "de manier waarop veiligheid is aangepakt volstrekt onverantwoordelijk is."
De kritiek volgt op verontrustende incidenten waarbij Grok 4 antisemitische inhoud genereerde, waaronder lof voor Hitler, en gedetailleerde instructies gaf voor het synthetiseren van gevaarlijke stoffen op verzoek. Het model introduceerde ook controversiële AI-companions met expliciet seksuele inhoud. xAI heeft sindsdien de systeemprompt van Grok aangepast om deze problemen aan te pakken, maar de controverse onderstreept de groeiende zorgen over AI-veiligheidspraktijken nu modellen steeds krachtiger worden.