一项开创性研究对“AI 编程助手能全面提升开发者生产力”的主流观点提出了挑战。
模型评估与威胁研究组织(METR)开展了一项随机对照试验,测量 2025 年初 AI 工具对经验丰富的开源开发者在自有仓库中编程效率的影响。令人惊讶的是,研究发现开发者在使用 AI 工具时,完成任务所需时间比不使用时多出 19%——AI 实际上让他们变慢了。
研究跟踪了 16 名资深开源开发者,他们在平均代码量超百万行、GitHub 星标数超 2.2 万的成熟仓库中完成了 246 个真实编码任务。每项任务随机分配为允许或禁止使用 AI 工具,开发者主要在 2025 年 2 月至 6 月期间使用 Cursor Pro 搭配 Claude 3.5 和 3.7 Sonnet。
结果令所有人感到意外,包括参与研究的开发者本人。即便在完成任务后,开发者们仍估计 AI 让他们的生产效率提升了 20%,而数据却清楚显示实际下降了 19%。这凸显了一个关键洞察:当人们报告 AI 加快了工作进度时,他们对实际影响可能完全误判。
METR 研究人员指出,效率下降的潜在原因包括:开发者花了更多时间在提示 AI 和等待回复上,而不是实际编码。这项研究对 2025 年 AI 编码工具所宣称的普遍生产力提升提出了重要质疑。
不过,这并不意味着 AI 工具普遍无效。METR 指出,在不熟悉的代码库、早期项目阶段,或对于经验较少的程序员,AI 仍可能加快进展。研究团队计划在未来进一步探索这些情景。他们还强调,这项研究仅反映了 2025 年初工具的现状,随着模型速度提升、更好集成或提示实践改进,结果可能会发生变化。
对于部署 AI 助手的团队来说,信息很明确:AI 编码工具仍在不断演进,但以目前形态,尤其是在资深工程师处理熟悉代码时,并不能保证效率提升。企业应在自身环境中实际测试和衡量影响,而不能仅凭主观感受来信任 AI 的提速效果。