La startup china de inteligencia artificial DeepSeek sigue revolucionando el panorama global de la IA con su última innovación en optimización de modelos. El 29 de mayo, la empresa reveló que una variante de su recientemente actualizado modelo de razonamiento R1-0528 se utilizó para mejorar el modelo Qwen 3 8B Base de Alibaba mediante un proceso conocido como destilación.
La técnica de destilación, que transfiere el conocimiento de un modelo más sofisticado a uno más pequeño, permitió a DeepSeek trasladar los procesos de razonamiento de su modelo R1-0528 al sistema de Alibaba. Según el anuncio de DeepSeek, este proceso resultó en mejoras de rendimiento superiores al 10% para el modelo Qwen 3.
"Creemos que la cadena de razonamiento de DeepSeek-R1-0528 tendrá una importancia significativa tanto para la investigación académica como para las aplicaciones prácticas", afirmó DeepSeek en su comunicado. La empresa ya ha lanzado previamente varios modelos destilados basados tanto en las arquitecturas Qwen como en Llama de Meta, con tamaños que van desde 1,5B hasta 70B parámetros.
El enfoque de DeepSeek en el desarrollo de IA ha atraído una atención considerable desde enero, cuando su modelo R1 demostró un rendimiento comparable al de las ofertas de OpenAI y Google, pero a una fracción del coste computacional. El éxito de la compañía ha puesto en entredicho la idea de que la IA de vanguardia requiere enormes recursos informáticos e inversión.
A pesar de las restricciones estadounidenses a la exportación de chips avanzados de IA, DeepSeek ha optimizado sus modelos para funcionar de manera eficiente en hardware de bajo consumo y aprobado para exportación. Esta estrategia ha obligado a los competidores a replantearse su dependencia del hardware y ha influido en la dinámica del mercado del sector de la IA.
La última actualización R1-0528 acerca el modelo de DeepSeek al rendimiento de los modelos de razonamiento o3 de OpenAI y Gemini 2.5 Pro de Google, con mejoras significativas en profundidad de razonamiento, capacidades de inferencia y reducción de alucinaciones. La continua innovación de la empresa y su enfoque de código abierto están redefiniendo las expectativas sobre el desarrollo y la eficiencia en el despliegue de modelos de IA.