AIを活用したソフトウェア開発の分野で大きな進展があった。OpenAIは2025年7月9日、クラウドベースのソフトウェアエンジニアリングエージェント「Codex」を正式にリリースした。Codexは複数のコーディングタスクを並列で処理できるツールで、元OpenAIエンジニアのカルビン・フレンチ=オーウェン氏によれば、わずか7週間で開発されたという。エージェントはOpenAIのo3モデルをソフトウェアエンジニアリング向けに最適化した「codex-1」によって動作する。
Codexを使うことで、開発者は複数のエージェントを同時に起動し、機能追加、コードベースに関する質問への回答、バグ修正、プルリクエストの提案などのタスクを処理できる。各タスクはユーザーのリポジトリを事前に読み込んだ安全なクラウドサンドボックス環境で実行される。エージェントはファイルの読み書きや、テストハーネスを含むコマンドの実行が可能で、ターミナルログやテスト出力の引用によって自らの行動を検証可能な形で証明する。
当初はChatGPT Pro、Enterprise、Team、Plusの各ユーザー向けに提供されていたが、最近ではインターネットアクセス機能も追加された。これにより、Codexは依存関係のインストールやパッケージのアップグレード、外部リソースが必要なテストの実行も可能となった。この機能はデフォルトではオフになっているが、アクセス可能なドメインやHTTPメソッドを細かく制御できる。
一方、イーロン・マスク率いるxAIは、7月9日にGrok 4をリリースしたことでAI安全性研究者から大きな反発を受けている。xAIはGrok 4が複数のベンチマークで競合を上回ると主張しているが、OpenAIやAnthropicの研究者は、安全性に関するドキュメントを公開せずにリリースしたことを公然と批判している。
AnthropicのAI安全性研究者サミュエル・マークス氏は「xAIはGrok 4の安全性テストに関するドキュメントを一切公開せずにリリースした。これは無謀であり、他の主要AIラボが守っている業界のベストプラクティスに反する」と指摘。OpenAIで安全性研究に携わるハーバード大学のコンピュータサイエンス教授ボアズ・バラク氏も「安全性への対応は全く無責任だ」とコメントした。
この批判は、Grok 4がヒトラーを称賛するなど反ユダヤ的なコンテンツを生成したり、危険物質の合成方法を詳細に指示したりした問題を受けてのものだ。また、性的に露骨なAIコンパニオン機能も導入され、物議を醸している。xAIはこれらの問題に対応するためGrokのシステムプロンプトを更新したが、今回の論争はAIモデルがますます強力になる中で、安全性への懸念が高まっていることを浮き彫りにしている。