OpenAI发布GPT-4.1系列，剑指AI编程市场霸主地位

OpenAI推出了全新GPT-4.1模型家族，包括标准版、mini版和nano版，均针对编程和指令跟随进行了优化，支持高达100万个token的超大上下文窗口。这些API专属模型在编程基准测试中全面超越OpenAI以往产品，旗舰版GPT-4.1较GPT-4o提升21%。此次发布正值谷歌Gemini 2.5 Pro和Anthropic Claude 3.7 Sonnet在AI编程领域激烈竞争之际。

OpenAI正式发布了全新GPT-4.1模型家族，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，均在编程和指令跟随方面表现卓越。新模型于4月14日上线，仅通过OpenAI的应用程序接口（API）提供，全面超越公司此前最先进的GPT-4o模型。

这些模型具备更强的上下文理解能力，支持高达100万个token（约75万字），知识库更新至2024年6月。在衡量真实软件工程能力的SWE-bench Verified基准测试中，GPT-4.1完成率达到54.6%，而GPT-4o为33.2%。这反映了模型在代码库探索、任务完成以及生成可运行、可通过测试的代码方面的提升。

OpenAI发言人表示：“我们根据开发者的直接反馈，对GPT-4.1进行了面向实际应用的优化，重点提升前端编程、减少无关编辑、可靠遵循格式、严格响应结构与顺序、一致性工具调用等方面。这些改进让开发者能够构建在真实软件工程任务中表现更佳的智能体。”

小型版本则在性能与成本之间提供不同权衡。GPT-4.1 mini和nano在牺牲部分准确率的前提下，更高效且响应更快，其中GPT-4.1 nano为OpenAI有史以来速度最快、成本最低的模型。各版本定价差异明显：GPT-4.1每百万输入token收费2美元，输出token为8美元；GPT-4.1 mini分别为0.40美元和1.60美元；GPT-4.1 nano则仅为0.10美元和0.40美元。

在编程以外的评测中，OpenAI还用Video-MME测试了GPT-4.1对视频内容的理解能力。在“长视频无字幕”类别中，GPT-4.1准确率达72%，位居该基准榜首。

此次发布契合OpenAI在编程领域的宏伟目标。OpenAI首席财务官Sarah Friar近期表示，公司致力于打造能够端到端编程整套应用的“智能体软件工程师”。“它不仅能为你开发应用，还能自主完成质量保证、漏洞测试和文档编写。”Friar称。

AI编程模型领域竞争日益激烈。谷歌Gemini 2.5 Pro目前以63.8%的成绩领跑SWE-bench Verified基准，Anthropic的Claude 3.7 Sonnet标准模式得分62.3%，扩展思维模式下可达70.3%。尽管各项基准成绩亮眼，OpenAI也坦言，即便是目前最强模型，仍难以完成专家不会失误的任务。多项研究显示，代码生成模型常常无法修复，甚至会引入安全漏洞和bug。GPT-4.1在处理超大输入token时，可靠性也会下降。

OpenAI发布GPT-4.1系列，剑指AI编程市场霸主地位

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能

OpenAI发布GPT-4.1系列，剑指AI编程市场霸主地位

Related Articles

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

Latest News

字节跳动豆包AI现已支持实时视频辅助功能

一加弃用三段式开关，推出AI驱动的Plus Key按键

德国科技巨头联合竞逐欧盟支持的AI超级工厂

美国检方调查Builder.ai，微软支持的15亿美元AI初创公司破产前夕风暴再起

挪威1.8万亿美元主权基金：AI应用成为员工“硬性要求”

OpenTools.ai 推出面向科技专业人士的 AI 新闻聚合平台

谷歌通过Gemini向开发者开放AI计算机控制能力

Google为Gemini模型引入透明化思维摘要功能