MIT推出AI教练，显著提升大语言模型问题解决能力

麻省理工学院（MIT）研究人员开发了CodeSteer智能助手，可指导大语言模型在文本与代码生成之间切换，直到正确回答复杂问题。该系统使大模型在数学、空间推理等符号任务上的准确率提升超过30%，让能力较弱的模型也能超越更先进的对手。这一突破有望极大提升AI在机器人、供应链管理等需精确计算推理领域的复杂问题解决能力。

大型语言模型（LLM）擅长理解上下文并通过文本推理给出逻辑答案，但在需要代码解决的计算任务上常常表现不佳，比如小数比较或优化问题求解。

为解决这一局限，MIT研究团队开发了CodeSteer智能助手，作为大语言模型的“教练”，引导其在文本与代码生成之间切换，直到正确回答查询。

“我们的灵感来自人类。在体育运动中，教练未必比明星运动员更强，但依然能给出有益建议，帮助运动员发挥更好。这种引导方法同样适用于大语言模型。”项目成员、哈佛与MIT联合培养研究生陈永超（Yongchao Chen）解释道。

CodeSteer本身是基于Llama-3-8B微调的小型语言模型。它会先审查问题，判断用文本还是代码更适合解决，然后为大模型生成相应提示，引导其采用合适方式。如果答案不正确，CodeSteer会不断提示大模型尝试不同方法，直到得到正确结果。

研究显示，将CodeSteer与GPT-4o结合后，其在符号任务上的准确率提升超过30%，在37项任务中的平均得分由53.3提升至86.4，超越了更先进的OpenAI o1（82.7）和DeepSeek R1（76.8）等模型。更令人瞩目的是，CodeSteer在其他模型如Claude、Mistral和GPT-3.5上也展现出强泛化能力，平均提升41.8%。

为开发和测试CodeSteer，研究团队还构建了SymBench基准集，涵盖37项可调复杂度的符号任务，涉及数学、空间推理、逻辑、顺序推理和优化问题。

这一突破有望极大提升AI在仅靠文本推理难以解决的复杂任务上的能力，比如为机器人在不确定环境中生成路径，或为国际供应链安排发货计划。

“通过让大模型智能地运用代码，我们可以让本已很强的模型表现得更好。”陈永超表示。研究团队目前正致力于优化CodeSteer，加快其迭代提示流程，并探索如何微调出能在文本推理与代码生成间自由切换的统一模型，无需单独助手。

MIT推出AI教练，显著提升大语言模型问题解决能力

Latest News

OpenAI 推出 ChatGPT Agent，统一 AI 工具实现自主任务处理

OpenAI携手Shopify，将ChatGPT升级为购物中心并内置结账功能

AI自动化推动Tech Mahindra逆势增长

xAI在与五角大楼签约之际推出带有性暗示的AI陪伴角色

谷歌AI现可代用户拨打电话，彻底解放你的双手

穆拉蒂的Thinking Machines Lab获20亿美元融资，推动AI革命

标普全球发布AI就绪元数据，革新金融分析领域

美联储积极采用AI提升研究能力，同时审慎评估其经济影响

AWS发布为新一代AI芯片定制的冷却系统

MIT绘制AI驱动软件工程的障碍地图

MIT推出AI教练，显著提升大语言模型问题解决能力

Related Articles

OpenAI 推出 ChatGPT Agent，统一 AI 工具实现自主任务处理

OpenAI携手Shopify，将ChatGPT升级为购物中心并内置结账功能

AI自动化推动Tech Mahindra逆势增长

xAI在与五角大楼签约之际推出带有性暗示的AI陪伴角色

美联储积极采用AI提升研究能力，同时审慎评估其经济影响

Latest News

OpenAI 推出 ChatGPT Agent，统一 AI 工具实现自主任务处理

OpenAI携手Shopify，将ChatGPT升级为购物中心并内置结账功能

AI自动化推动Tech Mahindra逆势增长

xAI在与五角大楼签约之际推出带有性暗示的AI陪伴角色

谷歌AI现可代用户拨打电话，彻底解放你的双手

穆拉蒂的Thinking Machines Lab获20亿美元融资，推动AI革命

标普全球发布AI就绪元数据，革新金融分析领域

美联储积极采用AI提升研究能力，同时审慎评估其经济影响

AWS发布为新一代AI芯片定制的冷却系统

MIT绘制AI驱动软件工程的障碍地图