研究人员开发了新一代AI模型,能够根据问题的复杂程度动态调整计算投入,这标志着人工智能在应对复杂任务方式上的重大转变。
以DeepSeek-R1和OpenAI的o系列为代表的这项技术,采用了开发者所称的“推理优先”方法,强调深入分析而非快速模式匹配。DeepSeek-R1正是基于这种推理优先的方法构建,特别适合通过高级逻辑推理和问题解决能力,处理科学、编程和数学等复杂任务。这种“先思考再作答”的理念,使其在技术应用中尤为有价值。
与传统AI系统不同,这些新型推理模型在作答前会“思考更久”。例如,OpenAI的o3能够将复杂问题拆解为逻辑步骤,执行中间计算或调用工具,最终给出有理有据的答案。作为推理模型,它们还能有效自我核查,避免了常规模型容易出现的失误。虽然它们在得出解决方案时比普通非推理模型多花几秒到几分钟,但在物理、科学和数学等领域的可靠性更高。
OpenAI观察到,大规模强化学习同样展现出“更多计算=更好表现”的趋势,这与早期模型训练的规律一致。通过在强化学习中重走扩展路径,OpenAI在训练计算量和推理时长上均提升了一个数量级,显著的性能提升证明,模型在被允许“多思考”时表现会持续提升。
这些模型在推理阶段会主动生成多条解题路径,并借助集成的评估器模型对每条路径进行评估,选出最有前景的方案。通过在专家标注数据上训练评估器,开发者确保模型具备强大的多步骤复杂问题推理能力。这一特性使模型能够自我评判推理过程,让大语言模型更接近“思考”而不仅仅是“作答”。
DeepSeek的方法将链式思维推理与强化学习相结合,后者让自主智能体通过试错而非人类指令来学习任务。这也对“模型仅通过在正确行为的标注样本上训练就能提升推理能力”这一假设提出了质疑。正如一位研究者所言:“我们能否只奖励模型正确性,让它自主发现最佳思考方式?”
这一进展对现实世界应用具有深远意义。这些模型有望彻底改变AI在科学研究、工程、商业战略乃至创新性问题解决等领域处理复杂问题的方式。通过根据任务难度合理分配计算资源——如同人类在难题上花费更多时间——这些系统有望在人类面临的最具挑战性的智力任务上,带来更可靠的表现。