Investigadores han desarrollado una nueva generación de modelos de IA capaces de ajustar dinámicamente su esfuerzo computacional según la complejidad del problema, lo que representa un cambio importante en la forma en que la inteligencia artificial aborda tareas desafiantes.
La tecnología, ejemplificada por modelos como DeepSeek-R1 y la serie o de OpenAI, emplea lo que los desarrolladores llaman un "enfoque de razonamiento primero" que prioriza el análisis exhaustivo sobre la simple coincidencia rápida de patrones. DeepSeek-R1 está construido con esta metodología de razonamiento primero, lo que lo hace especialmente adecuado para abordar tareas complejas en ciencia, programación y matemáticas mediante inferencia lógica avanzada y resolución de problemas. Este enfoque de "pensar antes de responder" lo vuelve especialmente valioso para aplicaciones técnicas.
A diferencia de los sistemas de IA convencionales, estos nuevos modelos de razonamiento están entrenados para "pensar por más tiempo" antes de responder. Por ejemplo, o3 de OpenAI puede descomponer preguntas difíciles en pasos lógicos, realizar cálculos intermedios o llamadas a herramientas y luego producir respuestas bien fundamentadas. Al ser modelos de razonamiento, efectivamente se auto-verifican, lo que ayuda a evitar errores que suelen afectar a los modelos estándar. Aunque tardan segundos o incluso minutos más en llegar a soluciones en comparación con modelos no orientados al razonamiento, tienden a ser más confiables en áreas como física, ciencia y matemáticas.
OpenAI ha observado que el aprendizaje por refuerzo a gran escala exhibe la misma tendencia de "más cómputo = mejor desempeño" vista en el entrenamiento de modelos anteriores. Al retomar la ruta de escalamiento—esta vez en aprendizaje por refuerzo—han incrementado en un orden de magnitud tanto el cómputo de entrenamiento como el razonamiento durante la inferencia, con claras mejoras de desempeño que validan que los modelos siguen mejorando cuanto más se les permite pensar.
Estos modelos generan activamente múltiples rutas de solución durante la inferencia, evaluando cada una con la ayuda de modelos evaluadores integrados para determinar la opción más prometedora. Al entrenar al evaluador con datos etiquetados por expertos, los desarrolladores aseguran que los modelos desarrollen una fuerte capacidad para razonar a través de problemas complejos y de varios pasos. Esta característica permite que el modelo actúe como juez de su propio razonamiento, acercando a los grandes modelos de lenguaje a la capacidad de "pensar" en lugar de simplemente responder.
El enfoque de DeepSeek combina el razonamiento en cadena de pensamiento con aprendizaje por refuerzo, en el que un agente autónomo aprende a realizar una tarea mediante prueba y error sin instrucciones humanas. Esto pone en duda la suposición de que los modelos mejorarán su capacidad de razonamiento únicamente entrenando con ejemplos etiquetados de comportamiento correcto. Como lo expresó un investigador: "¿Podemos simplemente recompensar al modelo por la corrección y dejar que descubra por sí mismo la mejor manera de pensar?"
Las implicaciones para aplicaciones en el mundo real son profundas. Estos modelos podrían transformar la manera en que la IA aborda problemas complejos en campos que van desde la investigación científica y la ingeniería hasta la estrategia empresarial y la resolución creativa de problemas. Al asignar recursos computacionales proporcionalmente a la dificultad de la tarea—de manera similar a como los humanos dedican más tiempo a los problemas más difíciles—estos sistemas prometen un desempeño más confiable en las tareas intelectuales más desafiantes que enfrenta la humanidad.