menu
close

OpenAI、AIコーディング市場制覇へ向け「GPT-4.1」ファミリーを発表

OpenAIは、新たなモデルファミリー「GPT-4.1」を発表しました。標準版、mini版、nano版が用意され、いずれもコーディングや指示の遵守に最適化され、最大100万トークンの巨大なコンテキストウィンドウを備えています。これらのAPI専用モデルは、コーディングベンチマークで従来のOpenAIモデルを上回り、フラッグシップのGPT-4.1はGPT-4oに対して21%の性能向上を示しました。GoogleのGemini 2.5 ProやAnthropicのClaude 3.7 SonnetもAIコーディング分野で覇権を争う中でのリリースです。
OpenAI、AIコーディング市場制覇へ向け「GPT-4.1」ファミリーを発表

OpenAIは、新たなモデルファミリー「GPT-4.1」を発表しました。GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoの3種類が用意され、いずれもコーディングや指示の遵守に優れています。 4月14日にリリースされたこれらの新モデルは、OpenAIのアプリケーションプログラミングインターフェース(API)を通じてのみ利用可能で、同社の最先端モデルであるGPT-4oを全体的に上回る性能を発揮します。

これらのモデルはコンテキスト理解が大幅に向上し、最大100万トークン(約75万語)まで対応。知識も2024年6月まで最新化されています。 実際のソフトウェアエンジニアリング能力を測るSWE-bench Verifiedベンチマークでは、GPT-4.1が54.6%のタスクを完了し、GPT-4oの33.2%を大きく上回りました。コードリポジトリの探索やタスクの完了、動作しテストに合格するコード生成能力が向上しています。

OpenAIの広報担当者は「GPT-4.1は、フロントエンドコーディング、余計な編集の削減、フォーマットや応答構造・順序の厳格な遵守、一貫したツール利用など、開発者が最も重視する領域での実用性向上を目指し、直接のフィードバックを基に最適化しました。これにより、現実のソフトウェアエンジニアリングタスクに大幅に強いエージェントを開発できます」と説明しています。

小型モデルはコストと性能のバランスが異なります。GPT-4.1 miniとnanoは、精度を多少犠牲にする代わりに、より効率的かつ高速で、GPT-4.1 nanoはOpenAI史上最速かつ最安モデルとされています。価格は大きく異なり、GPT-4.1は入力100万トークンあたり2ドル、出力100万トークンあたり8ドル。GPT-4.1 miniは入力0.40ドル・出力1.60ドル、nanoは入力0.10ドル・出力0.40ドルです。

コーディング以外の評価でも、OpenAIはGPT-4.1をVideo-MMEベンチマークでテスト。これは動画コンテンツ理解能力を測るもので、「長尺・字幕なし」カテゴリで72%の正答率を記録し、トップとなりました。

このリリースは、OpenAIのコーディング分野におけるさらなる野心とも一致しています。OpenAIのCFOであるSarah Friar氏は、同社のビジョンとして「アプリ全体をエンドツーエンドで開発できるエージェント型ソフトウェアエンジニア」の創出を語りました。「アプリを自動で構築するだけでなく、品質保証・バグテスト・ドキュメント作成まで自律的に行える」と述べています。

AIコーディングモデル分野の競争は激化しています。GoogleのGemini 2.5 ProはSWE-bench Verifiedで63.8%とトップ、AnthropicのClaude 3.7 Sonnetは標準モードで62.3%、拡張思考モードでは70.3%を記録しています。 こうした高いベンチマークにもかかわらず、OpenAIは現状の最先端モデルでも専門家なら問題なくこなせるタスクで苦戦することを認めています。多くの研究で、コード生成モデルがバグやセキュリティ脆弱性を修正できず、むしろ新たに生み出してしまうケースも報告されています。GPT-4.1も、処理するトークン数が増えるほど信頼性が低下する傾向があります。

Source: TechCrunch

Latest News