menu
close

DeepSeek potenzia l’IA di Alibaba tramite la distillazione della conoscenza

La startup cinese DeepSeek ha annunciato il 29 maggio 2025 di aver migliorato il modello Qwen 3 8B Base di Alibaba attraverso un processo di distillazione della conoscenza utilizzando il suo modello di ragionamento aggiornato R1-0528. Questa tecnica ha trasferito le avanzate capacità di ragionamento di DeepSeek al modello di Alibaba, portando a un incremento delle prestazioni superiore al 10%. La collaborazione evidenzia l’influenza crescente di DeepSeek nel settore dell’IA e il suo impegno nel migliorare l’efficienza dei modelli tramite approcci di ottimizzazione innovativi.
DeepSeek potenzia l’IA di Alibaba tramite la distillazione della conoscenza

La startup cinese DeepSeek continua a rivoluzionare il panorama globale dell’intelligenza artificiale con la sua ultima innovazione nell’ottimizzazione dei modelli. Il 29 maggio, l’azienda ha rivelato che una variante del suo modello di ragionamento recentemente aggiornato, R1-0528, è stata utilizzata per potenziare il modello Qwen 3 8B Base di Alibaba tramite un processo noto come distillazione.

La tecnica della distillazione, che trasferisce conoscenza da un modello più sofisticato a uno più piccolo, ha permesso a DeepSeek di trasmettere i processi di ragionamento del suo modello R1-0528 al sistema di Alibaba. Secondo quanto dichiarato da DeepSeek, questo processo ha portato a un miglioramento delle prestazioni superiore al 10% per il modello Qwen 3.

"Crediamo che la chain-of-thought di DeepSeek-R1-0528 avrà un’importanza significativa sia per la ricerca accademica sia per le applicazioni pratiche", ha affermato l’azienda nel suo annuncio. DeepSeek aveva già rilasciato in precedenza diversi modelli distillati basati sulle architetture Qwen e Llama di Meta, con dimensioni che vanno da 1,5 a 70 miliardi di parametri.

L’approccio di DeepSeek allo sviluppo dell’IA ha attirato notevole attenzione da gennaio, quando il suo modello R1 ha dimostrato prestazioni paragonabili a quelle di OpenAI e Google, ma a una frazione del costo computazionale. Il successo dell’azienda ha messo in discussione l’idea dominante secondo cui l’IA all’avanguardia richieda enormi risorse di calcolo e investimenti.

Nonostante le restrizioni statunitensi sull’export di chip IA avanzati, DeepSeek ha ottimizzato i suoi modelli per funzionare in modo efficiente su hardware a basso consumo e approvato per l’esportazione. Questa strategia ha costretto i concorrenti a riconsiderare la loro dipendenza dall’hardware e ha influenzato le dinamiche di mercato nel settore dell’intelligenza artificiale.

L’ultimo aggiornamento R1-0528 porta il modello di DeepSeek più vicino alle prestazioni dei modelli di ragionamento o3 di OpenAI e Gemini 2.5 Pro di Google, con miglioramenti significativi nella profondità del ragionamento, nelle capacità di inferenza e nella riduzione delle allucinazioni. L’innovazione continua dell’azienda e il suo approccio open source stanno ridefinendo le aspettative sullo sviluppo e l’efficienza di distribuzione dei modelli di IA.

Source:

Latest News