La startup cinese DeepSeek continua a rivoluzionare il panorama globale dell’intelligenza artificiale con la sua ultima innovazione nell’ottimizzazione dei modelli. Il 29 maggio, l’azienda ha rivelato che una variante del suo modello di ragionamento recentemente aggiornato, R1-0528, è stata utilizzata per potenziare il modello Qwen 3 8B Base di Alibaba tramite un processo noto come distillazione.
La tecnica della distillazione, che trasferisce conoscenza da un modello più sofisticato a uno più piccolo, ha permesso a DeepSeek di trasmettere i processi di ragionamento del suo modello R1-0528 al sistema di Alibaba. Secondo quanto dichiarato da DeepSeek, questo processo ha portato a un miglioramento delle prestazioni superiore al 10% per il modello Qwen 3.
"Crediamo che la chain-of-thought di DeepSeek-R1-0528 avrà un’importanza significativa sia per la ricerca accademica sia per le applicazioni pratiche", ha affermato l’azienda nel suo annuncio. DeepSeek aveva già rilasciato in precedenza diversi modelli distillati basati sulle architetture Qwen e Llama di Meta, con dimensioni che vanno da 1,5 a 70 miliardi di parametri.
L’approccio di DeepSeek allo sviluppo dell’IA ha attirato notevole attenzione da gennaio, quando il suo modello R1 ha dimostrato prestazioni paragonabili a quelle di OpenAI e Google, ma a una frazione del costo computazionale. Il successo dell’azienda ha messo in discussione l’idea dominante secondo cui l’IA all’avanguardia richieda enormi risorse di calcolo e investimenti.
Nonostante le restrizioni statunitensi sull’export di chip IA avanzati, DeepSeek ha ottimizzato i suoi modelli per funzionare in modo efficiente su hardware a basso consumo e approvato per l’esportazione. Questa strategia ha costretto i concorrenti a riconsiderare la loro dipendenza dall’hardware e ha influenzato le dinamiche di mercato nel settore dell’intelligenza artificiale.
L’ultimo aggiornamento R1-0528 porta il modello di DeepSeek più vicino alle prestazioni dei modelli di ragionamento o3 di OpenAI e Gemini 2.5 Pro di Google, con miglioramenti significativi nella profondità del ragionamento, nelle capacità di inferenza e nella riduzione delle allucinazioni. L’innovazione continua dell’azienda e il suo approccio open source stanno ridefinendo le aspettative sullo sviluppo e l’efficienza di distribuzione dei modelli di IA.