OpenAIは、ChatGPTエージェントの発表により、人工知能分野で大きな前進を遂げた。このシステムは、独自の仮想コンピュータを用いて、複雑なタスクを最初から最後まで自律的に完了できる。
2025年7月17日に発表された新エージェントは、これまで別々に存在していた3つの機能──ウェブサイト上でクリックやスクロール、入力操作ができるOperator、ウェブ全体から情報を統合・分析するDeep Research、そしてChatGPTの対話型知能──を統合したものだ。従来のツールは単体では優れていたが、エンドツーエンドのワークフローには対応できなかったという課題を、この統合が解決する。
ChatGPTエージェントは、OpenAIの最新マルチモーダルモデル「GPT-4o」を搭載し、「3社の競合分析を行い、スライド資料を作成してほしい」「カレンダーを確認し、最近のニュースをもとに今後のクライアントミーティングについて要点をまとめてほしい」といった高度なリクエストにも対応できる。システムはウェブサイトを視覚的・テキスト的にナビゲートし、フォーム入力やユーザー許可のもとでのアカウントアクセス、コードの実行、スプレッドシートやプレゼンテーションなど編集可能なドキュメントの作成も行う。
ベンチマークテストでは、ChatGPTエージェントは従来のOpenAIツールを大きく上回る性能を示した。投資銀行アナリストのモデリングタスクでは、Deep Researchやo3モデルを凌駕。難易度の高い情報検索を評価するBrowseCompベンチマークでは、68.9%という新たな最高スコアを記録し、Deep Researchを17.4ポイント上回った。
高い性能を持つ一方で、OpenAIはユーザーのコントロールを重視している。エージェントは重要な操作の前に必ず許可を求め、ユーザーはいつでも操作を中断したり、ブラウザ操作を引き継いだり、タスクを停止することができる。本日より、Pro、Plus、Teamの各プラン利用者は、ツールドロップダウンから「エージェントモード」を選択することで、これらの機能を利用可能となる。
このリリースは、ChatGPTを単なる質問応答ツールから、ユーザーのために行動し複雑なタスクを肩代わりできるエージェント型プロダクトへと進化させる、OpenAI史上最も大胆な挑戦だ。従来のAIエージェントは複雑なタスクに苦戦してきたが、OpenAIはChatGPTエージェントが従来製品よりもはるかに高機能であり、今後も定期的なアップデートでさらに利便性を高めていくとしている。