Investigadores han desarrollado una nueva generación de modelos de IA capaces de ajustar dinámicamente su esfuerzo computacional en función de la complejidad del problema, lo que supone un cambio importante en la forma en que la inteligencia artificial aborda tareas desafiantes.
La tecnología, ejemplificada por modelos como DeepSeek-R1 y la serie o de OpenAI, emplea lo que los desarrolladores denominan un "enfoque basado en el razonamiento" que prioriza un análisis exhaustivo frente a la simple coincidencia rápida de patrones. DeepSeek-R1 está construido con esta metodología centrada en el razonamiento, lo que lo hace especialmente adecuado para abordar tareas complejas en ciencia, programación y matemáticas mediante inferencias lógicas avanzadas y resolución de problemas. Este enfoque de "pensar antes de responder" lo convierte en una herramienta especialmente valiosa para aplicaciones técnicas.
A diferencia de los sistemas de IA convencionales, estos nuevos modelos de razonamiento están entrenados para "pensar durante más tiempo" antes de responder. Por ejemplo, o3 de OpenAI puede descomponer preguntas difíciles en pasos lógicos, realizar cálculos intermedios o llamadas a herramientas, y luego producir respuestas fundamentadas. Al ser modelos de razonamiento, se autocorrigen de manera efectiva, lo que ayuda a evitar errores que suelen afectar a los modelos estándar. Aunque tardan segundos o incluso minutos más en llegar a una solución en comparación con los modelos no orientados al razonamiento, tienden a ser más fiables en ámbitos como la física, la ciencia y las matemáticas.
OpenAI ha observado que el aprendizaje por refuerzo a gran escala muestra la misma tendencia de "más computación = mejor rendimiento" que se vio en el entrenamiento de modelos anteriores. Al repetir la senda de escalado —esta vez en el aprendizaje por refuerzo— han multiplicado por un orden de magnitud tanto el cómputo de entrenamiento como el razonamiento en tiempo de inferencia, con mejoras claras que validan que el rendimiento de los modelos sigue aumentando cuanto más se les permite pensar.
Estos modelos generan activamente múltiples rutas de solución durante la inferencia, evaluando cada una con la ayuda de modelos evaluadores integrados para determinar la opción más prometedora. Al entrenar al evaluador con datos etiquetados por expertos, los desarrolladores aseguran que los modelos desarrollen una fuerte capacidad para razonar a través de problemas complejos y de varios pasos. Esta característica permite que el modelo actúe como juez de su propio razonamiento, acercando a los grandes modelos de lenguaje a la capacidad de "pensar" en lugar de simplemente responder.
El enfoque de DeepSeek combina el razonamiento en cadena de pensamiento con el aprendizaje por refuerzo, en el que un agente autónomo aprende a realizar una tarea mediante prueba y error sin instrucciones humanas. Esto cuestiona la suposición de que los modelos mejorarán su capacidad de razonamiento únicamente entrenando con ejemplos etiquetados de comportamientos correctos. Como señaló un investigador: "¿Podemos simplemente recompensar al modelo por la corrección y dejar que descubra por sí mismo la mejor manera de pensar?"
Las implicaciones para las aplicaciones en el mundo real son profundas. Estos modelos podrían transformar la forma en que la IA aborda problemas complejos en campos que van desde la investigación científica y la ingeniería hasta la estrategia empresarial y la resolución creativa de problemas. Al asignar recursos computacionales de manera proporcional a la dificultad de la tarea —de forma similar a como los humanos dedican más tiempo a los problemas difíciles— estos sistemas prometen un rendimiento más fiable en los desafíos intelectuales más exigentes a los que se enfrenta la humanidad.