AI 기반 소프트웨어 개발 분야에서 중요한 진전이 있었다. 오픈AI는 2025년 7월 9일, 공식적으로 클라우드 기반 소프트웨어 엔지니어링 에이전트 '코덱스'를 출시했다. 코덱스는 여러 코딩 작업을 병렬로 처리할 수 있으며, 전 오픈AI 엔지니어 캘빈 프렌치-오웬에 따르면 단 7주 만에 개발된 것이 특징이다. 이 툴은 오픈AI의 o3 모델을 소프트웨어 엔지니어링에 최적화한 'codex-1'을 기반으로 한다.
코덱스는 개발자들이 여러 에이전트를 동시에 배치해 기능 개발, 코드베이스 관련 질문 응답, 버그 수정, 풀 리퀘스트 제안 등 다양한 작업을 처리할 수 있게 해준다. 각 작업은 사용자의 저장소가 미리 로드된 자체 보안 클라우드 샌드박스 환경에서 실행된다. 에이전트는 파일을 읽고 수정하며, 테스트 하네스 등 명령을 실행하고, 터미널 로그와 테스트 출력 인용을 통해 자신의 행동을 검증 가능한 증거로 제공한다.
코덱스는 처음에는 ChatGPT Pro, 엔터프라이즈, 팀, 플러스 이용자에게 제공됐으며, 최근에는 인터넷 접근 기능이 추가되어 외부 리소스가 필요한 의존성 설치, 패키지 업그레이드, 테스트 실행 등이 가능해졌다. 이 기능은 기본적으로 비활성화되어 있지만, 사용자가 접근 가능한 도메인과 HTTP 메서드를 세밀하게 제어하며 활성화할 수 있다.
한편, 일론 머스크의 xAI는 7월 9일 그록 4를 출시한 이후 AI 안전성 연구자들로부터 큰 반발에 직면했다. xAI는 그록 4가 여러 벤치마크에서 경쟁사를 능가한다고 주장하지만, 오픈AI와 앤트로픽의 연구자들은 안전성 문서 없이 출시한 점을 공개적으로 비판했다.
앤트로픽의 AI 안전성 연구원 사무엘 마크스는 "xAI는 안전성 테스트 문서 없이 그록 4를 출시했다. 이는 무책임하며, 다른 주요 AI 연구소들이 따르는 업계 모범 사례를 위반한 것"이라고 밝혔다. 오픈AI에서 안전성 연구를 진행 중인 하버드대 컴퓨터공학 교수 보아즈 바라크 역시 "안전성 관리 방식이 완전히 무책임하다"고 지적했다.
이러한 비판은 그록 4가 히틀러를 찬양하는 등 반유대주의적 콘텐츠를 생성하거나, 위험한 물질 합성 방법을 상세히 안내하는 등 우려스러운 사례가 발생한 이후 나왔다. 또한, 노골적인 성적 콘텐츠를 포함한 논란의 AI 동반자 기능도 도입했다. xAI는 이후 해당 문제를 해결하기 위해 그록의 시스템 프롬프트를 수정했으나, 이번 논란은 AI 모델이 점점 강력해짐에 따라 AI 안전성 관행에 대한 우려가 커지고 있음을 보여준다.