menu
close

Το MIT Αποκαλύπτει την Κρυμμένη Δύναμη των Tokenizers Νευρωνικών Δικτύων

Ερευνητές του MIT ανακάλυψαν ότι οι tokenizers νευρωνικών δικτύων μπορούν να πραγματοποιήσουν δημιουργία και επεξεργασία εικόνων χωρίς τη χρήση παραδοσιακών γεννητριών, όπως ανακοινώθηκε στις 22 Ιουλίου 2025. Η πρωτοποριακή έρευνα, που παρουσιάστηκε στο ICML 2025, δείχνει πως η χειραγώγηση μεμονωμένων tokens σε μονοδιάστατους tokenizers μπορεί να επιφέρει οπτικά αναγνωρίσιμες αλλαγές στις εικόνες, επιτρέποντας αποδοτική επεξεργασία εικόνων με σημαντικά μειωμένο υπολογιστικό κόστος. Η προσέγγιση αυτή χρησιμοποιεί ένα σύστημα tokenizer-decoder με καθοδήγηση από το CLIP για επεξεργασία και δημιουργία εικόνων βάσει κειμένου.
Το MIT Αποκαλύπτει την Κρυμμένη Δύναμη των Tokenizers Νευρωνικών Δικτύων

Μια ομάδα ερευνητών του MIT αποκάλυψε ότι συστατικά των νευρωνικών δικτύων που μέχρι πρότινος θεωρούνταν απλοί κωδικοποιητές μπορούν στην πραγματικότητα να εκτελέσουν πολύπλοκες εργασίες δημιουργίας και επεξεργασίας εικόνων αυτόνομα.

Η έρευνα, που παρουσιάστηκε στο Διεθνές Συνέδριο Μηχανικής Μάθησης (ICML 2025) στο Βανκούβερ, αποδεικνύει ότι οι μονοδιάστατοι (1D) tokenizers—νευρωνικά δίκτυα που συμπιέζουν οπτικές πληροφορίες σε ακολουθίες διακριτών tokens—διαθέτουν ανεκμετάλλευτες γενετικές δυνατότητες που καταργούν την ανάγκη για παραδοσιακές γεννήτριες εικόνων.

Υπό την καθοδήγηση του μεταπτυχιακού φοιτητή Lukas Lao Beyer από το Εργαστήριο Πληροφορίας και Συστημάτων Απόφασης (LIDS) του MIT, η ομάδα ανακάλυψε ότι η χειραγώγηση μεμονωμένων tokens μέσα σε αυτές τις συμπιεσμένες αναπαραστάσεις παράγει συγκεκριμένες, προβλέψιμες αλλαγές στις τελικές εικόνες. «Αυτό ήταν ένα πρωτόγνωρο αποτέλεσμα, καθώς κανείς δεν είχε παρατηρήσει οπτικά αναγνωρίσιμες αλλαγές από τη χειραγώγηση των tokens», εξήγησε ο Lao Beyer.

Οι ερευνητές διαπίστωσαν ότι η αντικατάσταση ενός μόνο token μπορούσε να μεταμορφώσει την ποιότητα της εικόνας από χαμηλή σε υψηλή ανάλυση, να ρυθμίσει το θόλωμα του φόντου, να αλλάξει τα επίπεδα φωτεινότητας ή ακόμα και να τροποποιήσει τη στάση αντικειμένων μέσα στην εικόνα. Αυτή η ανακάλυψη ανοίγει νέες δυνατότητες για αποδοτική επεξεργασία εικόνων μέσω άμεσης χειραγώγησης των tokens.

Ακόμη πιο σημαντικό, η ομάδα του MIT παρουσίασε μια νέα προσέγγιση για τη δημιουργία εικόνων που απαιτεί μόνο έναν 1D tokenizer και έναν αποκωδικοποιητή (detokenizer), με καθοδήγηση από ένα έτοιμο νευρωνικό δίκτυο που ονομάζεται CLIP. Το σύστημα αυτό μπορεί να μετατρέπει έναν τύπο εικόνας σε άλλον—για παράδειγμα, να μεταμορφώνει ένα κόκκινο πάντα σε τίγρη—ή να δημιουργεί εντελώς νέες εικόνες από τυχαίες τιμές tokens που βελτιστοποιούνται σταδιακά.

Η προσέγγιση βασίζεται σε μια ανακάλυψη του 2024 από το Τεχνικό Πανεπιστήμιο του Μονάχου και ερευνητές της ByteDance, οι οποίοι ανέπτυξαν μια μέθοδο συμπίεσης εικόνων 256×256 pixel σε μόλις 32 tokens, σε σύγκριση με τα 256 tokens που χρησιμοποιούσαν προηγούμενοι tokenizers. Η καινοτομία του MIT αποδεικνύει ότι αυτές οι εξαιρετικά συμπιεσμένες αναπαραστάσεις περιέχουν πλούσια σημασιολογική πληροφορία που μπορεί να αξιοποιηθεί για δημιουργικές εφαρμογές.

Η ερευνητική ομάδα περιλαμβάνει επίσης τους Tianhong Li από το Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης (CSAIL) του MIT, Xinlei Chen από το Facebook AI Research, τον καθηγητή του MIT Sertac Karaman και τον αναπληρωτή καθηγητή του MIT Kaiming He. Τα ευρήματά τους υποδεικνύουν ένα πιο υπολογιστικά αποδοτικό μέλλον για τη δημιουργία εικόνων με τεχνητή νοημοσύνη, το οποίο αναμένεται να εξελιχθεί σε μια βιομηχανία δισεκατομμυρίων δολαρίων μέχρι το τέλος της δεκαετίας.

Source: Techxplore

Latest News