OpenAI正式发布了全新GPT-4.1模型家族,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,均在编程和指令跟随方面表现卓越。 新模型于4月14日上线,仅通过OpenAI的应用程序接口(API)提供,全面超越公司此前最先进的GPT-4o模型。
这些模型具备更强的上下文理解能力,支持高达100万个token(约75万字),知识库更新至2024年6月。 在衡量真实软件工程能力的SWE-bench Verified基准测试中,GPT-4.1完成率达到54.6%,而GPT-4o为33.2%。这反映了模型在代码库探索、任务完成以及生成可运行、可通过测试的代码方面的提升。
OpenAI发言人表示:“我们根据开发者的直接反馈,对GPT-4.1进行了面向实际应用的优化,重点提升前端编程、减少无关编辑、可靠遵循格式、严格响应结构与顺序、一致性工具调用等方面。这些改进让开发者能够构建在真实软件工程任务中表现更佳的智能体。”
小型版本则在性能与成本之间提供不同权衡。GPT-4.1 mini和nano在牺牲部分准确率的前提下,更高效且响应更快,其中GPT-4.1 nano为OpenAI有史以来速度最快、成本最低的模型。各版本定价差异明显:GPT-4.1每百万输入token收费2美元,输出token为8美元;GPT-4.1 mini分别为0.40美元和1.60美元;GPT-4.1 nano则仅为0.10美元和0.40美元。
在编程以外的评测中,OpenAI还用Video-MME测试了GPT-4.1对视频内容的理解能力。在“长视频无字幕”类别中,GPT-4.1准确率达72%,位居该基准榜首。
此次发布契合OpenAI在编程领域的宏伟目标。OpenAI首席财务官Sarah Friar近期表示,公司致力于打造能够端到端编程整套应用的“智能体软件工程师”。“它不仅能为你开发应用,还能自主完成质量保证、漏洞测试和文档编写。”Friar称。
AI编程模型领域竞争日益激烈。谷歌Gemini 2.5 Pro目前以63.8%的成绩领跑SWE-bench Verified基准,Anthropic的Claude 3.7 Sonnet标准模式得分62.3%,扩展思维模式下可达70.3%。 尽管各项基准成绩亮眼,OpenAI也坦言,即便是目前最强模型,仍难以完成专家不会失误的任务。多项研究显示,代码生成模型常常无法修复,甚至会引入安全漏洞和bug。GPT-4.1在处理超大输入token时,可靠性也会下降。