Η κινεζική startup τεχνητής νοημοσύνης DeepSeek συνεχίζει να ανατρέπει το παγκόσμιο τοπίο της τεχνητής νοημοσύνης με την τελευταία της καινοτομία στη βελτιστοποίηση μοντέλων. Στις 29 Μαΐου, η εταιρεία αποκάλυψε ότι μια παραλλαγή του πρόσφατα αναβαθμισμένου μοντέλου λογικής R1-0528 χρησιμοποιήθηκε για την ενίσχυση του μοντέλου Qwen 3 8B Base της Alibaba μέσω μιας διαδικασίας γνωστής ως απόσταξη.
Η τεχνική απόσταξης, η οποία μεταφέρει γνώση από ένα πιο εξελιγμένο μοντέλο σε ένα μικρότερο, επέτρεψε στη DeepSeek να μεταδώσει τις διαδικασίες λογικής του μοντέλου R1-0528 στο σύστημα της Alibaba. Σύμφωνα με την ανακοίνωση της DeepSeek, η διαδικασία αυτή οδήγησε σε βελτιώσεις απόδοσης που ξεπερνούν το 10% για το μοντέλο Qwen 3.
«Πιστεύουμε ότι η αλυσίδα συλλογισμού του DeepSeek-R1-0528 θα έχει σημαντική σημασία τόσο για την ακαδημαϊκή έρευνα όσο και για πρακτικές εφαρμογές», ανέφερε η DeepSeek στην ανακοίνωσή της. Η εταιρεία έχει ήδη κυκλοφορήσει αρκετά αποσταγμένα μοντέλα βασισμένα τόσο στις αρχιτεκτονικές Qwen όσο και της Llama της Meta, με μεγέθη που κυμαίνονται από 1,5B έως 70B παραμέτρους.
Η προσέγγιση της DeepSeek στην ανάπτυξη τεχνητής νοημοσύνης έχει προσελκύσει σημαντική προσοχή από τον Ιανουάριο, όταν το μοντέλο R1 της εταιρείας επέδειξε απόδοση συγκρίσιμη με εκείνη των OpenAI και Google, με ένα κλάσμα του υπολογιστικού κόστους. Η επιτυχία της εταιρείας αμφισβήτησε την επικρατούσα αντίληψη ότι η αιχμή της τεχνητής νοημοσύνης απαιτεί τεράστιους υπολογιστικούς πόρους και επενδύσεις.
Παρά τους περιορισμούς εξαγωγών των ΗΠΑ σε προηγμένα τσιπ τεχνητής νοημοσύνης, η DeepSeek έχει βελτιστοποιήσει τα μοντέλα της ώστε να λειτουργούν αποδοτικά σε χαμηλότερης ισχύος, εγκεκριμένο για εξαγωγή υλικό. Αυτή η στρατηγική έχει αναγκάσει τους ανταγωνιστές να επανεξετάσουν τις εξαρτήσεις τους από το υλικό και έχει επηρεάσει τη δυναμική της αγοράς στον τομέα της τεχνητής νοημοσύνης.
Η τελευταία αναβάθμιση R1-0528 φέρνει το μοντέλο της DeepSeek πιο κοντά στην απόδοση των μοντέλων λογικής o3 της OpenAI και του Gemini 2.5 Pro της Google, με σημαντικές βελτιώσεις στο βάθος λογικής, τις δυνατότητες εξαγωγής συμπερασμάτων και τη μείωση των ψευδαισθήσεων. Η συνεχής καινοτομία και η προσέγγιση ανοικτού κώδικα της εταιρείας αναδιαμορφώνουν τις προσδοκίες για την ανάπτυξη και την αποδοτική υλοποίηση μοντέλων τεχνητής νοημοσύνης.