大型语言模型(LLM)擅长理解上下文并通过文本推理给出逻辑答案,但在需要代码解决的计算任务上常常表现不佳,比如小数比较或优化问题求解。
为解决这一局限,MIT研究团队开发了CodeSteer智能助手,作为大语言模型的“教练”,引导其在文本与代码生成之间切换,直到正确回答查询。
“我们的灵感来自人类。在体育运动中,教练未必比明星运动员更强,但依然能给出有益建议,帮助运动员发挥更好。这种引导方法同样适用于大语言模型。”项目成员、哈佛与MIT联合培养研究生陈永超(Yongchao Chen)解释道。
CodeSteer本身是基于Llama-3-8B微调的小型语言模型。它会先审查问题,判断用文本还是代码更适合解决,然后为大模型生成相应提示,引导其采用合适方式。如果答案不正确,CodeSteer会不断提示大模型尝试不同方法,直到得到正确结果。
研究显示,将CodeSteer与GPT-4o结合后,其在符号任务上的准确率提升超过30%,在37项任务中的平均得分由53.3提升至86.4,超越了更先进的OpenAI o1(82.7)和DeepSeek R1(76.8)等模型。更令人瞩目的是,CodeSteer在其他模型如Claude、Mistral和GPT-3.5上也展现出强泛化能力,平均提升41.8%。
为开发和测试CodeSteer,研究团队还构建了SymBench基准集,涵盖37项可调复杂度的符号任务,涉及数学、空间推理、逻辑、顺序推理和优化问题。
这一突破有望极大提升AI在仅靠文本推理难以解决的复杂任务上的能力,比如为机器人在不确定环境中生成路径,或为国际供应链安排发货计划。
“通过让大模型智能地运用代码,我们可以让本已很强的模型表现得更好。”陈永超表示。研究团队目前正致力于优化CodeSteer,加快其迭代提示流程,并探索如何微调出能在文本推理与代码生成间自由切换的统一模型,无需单独助手。