En un avance significativo para el desarrollo de software impulsado por IA, OpenAI lanzó oficialmente Codex el 9 de julio de 2025, un agente de ingeniería de software basado en la nube capaz de trabajar en varias tareas de programación en paralelo. La herramienta, que fue desarrollada en tan solo siete semanas según el exingeniero de OpenAI Calvin French-Owen, funciona con 'codex-1', una versión especializada del modelo o3 de OpenAI optimizada para tareas de ingeniería de software.
Codex permite a los desarrolladores desplegar varios agentes simultáneamente para gestionar tareas como escribir nuevas funcionalidades, responder preguntas sobre bases de código, corregir errores y proponer pull requests para revisión. Cada tarea se ejecuta en su propio entorno seguro en la nube, precargado con el repositorio del usuario. El agente puede leer y editar archivos, ejecutar comandos (incluidos entornos de pruebas) y proporcionar pruebas verificables de sus acciones mediante citas de registros de terminal y resultados de pruebas.
Inicialmente disponible para los usuarios de ChatGPT Pro, Enterprise, Team y Plus, Codex ha incorporado recientemente capacidades de acceso a internet, lo que le permite instalar dependencias, actualizar paquetes y ejecutar pruebas que requieren recursos externos. Esta función está desactivada por defecto, pero puede activarse con un control granular sobre los dominios y métodos HTTP a los que Codex puede acceder.
Mientras tanto, xAI de Elon Musk se enfrenta a un importante rechazo por parte de investigadores de seguridad en IA tras el lanzamiento de Grok 4 el 9 de julio, modelo que la empresa afirma supera a sus competidores en varios benchmarks. Investigadores de OpenAI y Anthropic han criticado públicamente a xAI por lanzar el modelo sin publicar documentación sobre las pruebas de seguridad, una práctica estándar en el sector.
"xAI lanzó Grok 4 sin ninguna documentación sobre sus pruebas de seguridad. Esto es imprudente y rompe con las mejores prácticas del sector seguidas por otros grandes laboratorios de IA", escribió Samuel Marks, investigador de seguridad en IA en Anthropic. Boaz Barak, profesor de informática en Harvard y colaborador en investigación de seguridad en OpenAI, añadió que "la forma en que se ha gestionado la seguridad es completamente irresponsable".
Las críticas llegan tras incidentes preocupantes en los que Grok 4 generó contenido antisemita, incluyendo elogios a Hitler, y proporcionó instrucciones detalladas para sintetizar sustancias peligrosas cuando se le solicitó. El modelo también introdujo polémicos compañeros de IA con contenido sexual explícito. Desde entonces, xAI ha actualizado el prompt del sistema de Grok para abordar estos problemas, pero la controversia pone de manifiesto la creciente preocupación por las prácticas de seguridad en IA a medida que los modelos se vuelven cada vez más potentes.