Η Google DeepMind παρουσίασε το Gemini Diffusion, μια επαναστατική προσέγγιση στην παραγωγή κειμένου με τεχνητή νοημοσύνη, που αποτελεί σημαντική απόκλιση από τα παραδοσιακά αυτοπαραγωγικά γλωσσικά μοντέλα.
Σε αντίθεση με τα συμβατικά μοντέλα που παράγουν το κείμενο διαδοχικά, ένα token τη φορά, το Gemini Diffusion αξιοποιεί τεχνολογία diffusion—που μέχρι πρόσφατα χρησιμοποιούνταν κυρίως στη δημιουργία εικόνων και βίντεο—για να μετατρέπει τυχαίο θόρυβο σε συνεκτικό κείμενο μέσω μιας επαναληπτικής διαδικασίας. Αυτή η καινοτόμος προσέγγιση επιτρέπει στο μοντέλο να παράγει περιεχόμενο με εντυπωσιακές ταχύτητες έως και 2.000 tokens ανά δευτερόλεπτο, σύμφωνα με τους ερευνητές της DeepMind.
«Αντί να προβλέπουν το κείμενο άμεσα, μαθαίνουν να δημιουργούν αποτελέσματα βελτιώνοντας τον θόρυβο, βήμα-βήμα», εξηγεί η Google στην ανακοίνωσή της. «Αυτό σημαίνει ότι μπορούν να επαναλαμβάνουν πολύ γρήγορα μια λύση και να διορθώνουν λάθη κατά τη διαδικασία παραγωγής.»
Το πειραματικό demo, που είναι προς το παρόν διαθέσιμο μέσω λίστας αναμονής, επιδεικνύει πώς αυτή η τεχνολογία μπορεί να ανταγωνιστεί την απόδοση των υπαρχόντων μοντέλων της Google στον προγραμματισμό, μειώνοντας δραστικά τον χρόνο παραγωγής. Σε δοκιμές, το Gemini Diffusion αποδίδει συγκρίσιμα με το Gemini 2.0 Flash-Lite σε προγραμματιστικά tasks όπως τα HumanEval και MBPP, παρουσιάζοντας σχεδόν ταυτόσημα αποτελέσματα.
Ο Oriol Vinyals, Αντιπρόεδρος Έρευνας και Επικεφαλής Deep Learning στη Google DeepMind και συν-επικεφαλής του έργου Gemini, χαρακτήρισε την κυκλοφορία ως προσωπικό ορόσημο, σημειώνοντας ότι το demo έτρεχε τόσο γρήγορα που χρειάστηκε να επιβραδύνουν το βίντεο για να είναι παρακολουθήσιμο.
Παράλληλα, η Google ενίσχυσε τη σειρά Gemini 2.5 με νέες δυνατότητες. Η εταιρεία λάνσαρε το Gemini 2.5 Flash με "thinking budgets", προσφέροντας στους προγραμματιστές πρωτοφανή έλεγχο στο πόση συλλογιστική εκτελεί η τεχνητή νοημοσύνη. Αυτή η λειτουργία επιτρέπει στους χρήστες να ισορροπούν μεταξύ ποιότητας, καθυστέρησης και κόστους, ορίζοντας ένα όριο tokens (έως 24.576 tokens) για τη διαδικασία συλλογιστικής του μοντέλου.
Η Google επεκτείνει επίσης τα "thinking budgets" στο Gemini 2.5 Pro, με γενική διαθεσιμότητα τις επόμενες εβδομάδες. Επιπλέον, η εταιρεία πρόσθεσε εγγενή υποστήριξη SDK για ορισμούς Model Context Protocol (MCP) στο Gemini API, διευκολύνοντας την ενσωμάτωση με open-source εργαλεία και την ανάπτυξη agentic εφαρμογών.
Αυτές οι εξελίξεις συνολικά αντιπροσωπεύουν την προσπάθεια της Google να καταστήσει την τεχνητή νοημοσύνη πιο αποδοτική, ελεγχόμενη και προσβάσιμη στους προγραμματιστές, διατηρώντας ταυτόχρονα υψηλά πρότυπα απόδοσης.