menu
close

DeepSeek actualiza su modelo de IA R1 y desafía a los gigantes tecnológicos occidentales

La startup china de inteligencia artificial DeepSeek ha lanzado una actualización de su modelo de razonamiento R1, que impulsó a la compañía a la fama mundial a principios de este año. La actualización R1-0528, aunque la empresa la describe como 'menor', muestra mejoras significativas en capacidades de programación, profundidad de razonamiento y tareas de redacción. El modelo actualizado mantiene el enfoque rentable de DeepSeek en el desarrollo de IA, al tiempo que rivaliza en rendimiento con los modelos de OpenAI y Google.
DeepSeek actualiza su modelo de IA R1 y desafía a los gigantes tecnológicos occidentales

DeepSeek, la startup china de inteligencia artificial que provocó caídas en las acciones tecnológicas en enero con su revolucionario modelo R1, ha lanzado discretamente una actualización significativa de su sistema de IA insignia.

La nueva versión, denominada DeepSeek-R1-0528, se publicó el 28 de mayo con escasa fanfarria a través de un breve anuncio en el grupo de WeChat de la empresa. A pesar de que DeepSeek la describe como una 'actualización menor de prueba', las primeras pruebas revelan mejoras sustanciales en múltiples áreas.

Según el ranking de LiveCodeBench, el modelo actualizado ocupa ahora el cuarto puesto en capacidades de programación con una puntuación Pass@1 de 73,1, situándose justo por detrás de los modelos O3 y O4-Mini de OpenAI. Esto supone un avance importante para un modelo de código abierto, especialmente uno desarrollado con muchos menos recursos que sus homólogos occidentales.

Las especificaciones técnicas muestran que el R1-0528 mantiene la arquitectura Mixture-of-Experts (MoE) de su predecesor, con aproximadamente 685.000 millones de parámetros en total, aunque solo unos 37.000 millones están activos durante la inferencia. El modelo ahora admite una ventana de contexto ampliada de hasta 128.000 tokens, lo que le permite procesar documentos y bases de código mucho más extensos.

Los comentarios de los usuarios destacan mejoras en la profundidad del razonamiento, la calidad de la redacción y la capacidad de resolución de problemas. Los desarrolladores informan de que el modelo puede ahora mantener sesiones de razonamiento prolongadas de entre 30 y 60 minutos para tareas complejas, similar a los modelos de Google. La actualización también corrige peculiaridades anteriores en la generación de texto, produciendo contenidos más naturales y mejor formateados.

La continua innovación de DeepSeek desafía la idea de que escalar la IA requiere una enorme potencia de cálculo e inversión. El éxito de la empresa con modelos rentables y de código abierto ya ha forzado respuestas de los gigantes tecnológicos, con OpenAI bajando precios y Google introduciendo niveles de acceso con descuento. Mientras tanto, competidores chinos como Alibaba y Tencent han lanzado sus propios modelos, afirmando superar las capacidades de DeepSeek.

La actualización R1-0528 está disponible en Hugging Face bajo una licencia MIT, lo que permite su uso comercial y modificaciones. Los expertos del sector anticipan que DeepSeek lanzará en los próximos meses su modelo R2, más completo, lo que podría alterar aún más el panorama de la IA.

Source:

Latest News