menu
close

Η Επαναστατική Τεχνητή Νοημοσύνη H-Net Εξαλείφει τους Άκαμπτους Κανόνες Τοκενισμού

Ερευνητές από το Πανεπιστήμιο Carnegie Mellon παρουσίασαν στις 23 Ιουλίου 2025 το H-Net, ένα επαναστατικό σύστημα τεχνητής νοημοσύνης που μαθαίνει αυτόματα τη βέλτιστη τμηματοποίηση κειμένου κατά τη διάρκεια της εκπαίδευσης, αντί να βασίζεται σε προκαθορισμένους κανόνες τοκενισμού. Το σύστημα επιδεικνύει σχεδόν 4 φορές καλύτερη απόδοση σε αλληλουχίες DNA και σημαντικές βελτιώσεις σε πολλές γλώσσες σε σύγκριση με τις παραδοσιακές μεθόδους. Αυτή η προσαρμοστική προσέγγιση στην επεξεργασία κειμένου αποτελεί θεμελιώδη πρόοδο στον τρόπο με τον οποίο τα συστήματα τεχνητής νοημοσύνης κατανοούν και επεξεργάζονται διαφορετικούς τύπους δεδομένων.
Η Επαναστατική Τεχνητή Νοημοσύνη H-Net Εξαλείφει τους Άκαμπτους Κανόνες Τοκενισμού

Μια ομάδα υπό την ηγεσία του διδακτορικού φοιτητή Sukjun Hwang και των καθηγητών Brandon Wang και Albert Gu στο Πανεπιστήμιο Carnegie Mellon ανέπτυξε μια πρωτοποριακή αρχιτεκτονική τεχνητής νοημοσύνης με την ονομασία H-Net, η οποία μπορεί να μεταμορφώσει τον τρόπο με τον οποίο τα γλωσσικά μοντέλα επεξεργάζονται κείμενο και άλλα διαδοχικά δεδομένα.

Τα παραδοσιακά γλωσσικά μοντέλα βασίζονται στον τοκενισμό—ένα βήμα προεπεξεργασίας που διασπά το κείμενο σε μικρότερες μονάδες σύμφωνα με άκαμπτους κανόνες. Αυτή η προσέγγιση δημιουργεί θεμελιώδεις περιορισμούς, ειδικά για γλώσσες χωρίς σαφή όρια λέξεων και εξειδικευμένους τομείς όπως η γονιδιωματική. Το H-Net εξαλείφει αυτόν τον περιορισμό εφαρμόζοντας έναν δυναμικό μηχανισμό τμηματοποίησης, ο οποίος μαθαίνει αυτόματα τον πιο αποτελεσματικό τρόπο διαχωρισμού του κειμένου κατά την εκπαίδευση.

Η εργασία των ερευνητών, που δημοσιεύτηκε στο arXiv στις 10 Ιουλίου και ενημερώθηκε στις 15 Ιουλίου 2025, αποδεικνύει ότι το H-Net επιτυγχάνει σχεδόν 4 φορές μεγαλύτερη αποδοτικότητα δεδομένων στην επεξεργασία αλληλουχιών DNA σε σύγκριση με τις συμβατικές προσεγγίσεις. Το σύστημα παρουσιάζει επίσης ανώτερη απόδοση σε πολλές γλώσσες, με ιδιαίτερα ισχυρά αποτελέσματα για τα Κινέζικα και τον προγραμματιστικό κώδικα.

Αυτό που καθιστά το H-Net επαναστατικό είναι η ικανότητά του να μαθαίνει στρατηγικές τμηματοποίησης που εξαρτώνται από το περιεχόμενο και τα συμφραζόμενα, χωρίς ρητή εποπτεία. Το μοντέλο λειτουργεί σε επίπεδο byte και ενσωματώνει μια ιεραρχική δομή δικτύου που μπορεί να επαναληφθεί σε πολλαπλά στάδια, επιτρέποντάς του να μοντελοποιεί διαφορετικά επίπεδα αφαίρεσης. Αυτή η προσέγγιση επιτρέπει στο H-Net να φτάνει την απόδοση των token-based Transformers διπλάσιου μεγέθους.

Πέρα από την επεξεργασία γλώσσας, το H-Net ανοίγει δυνατότητες για την επεξεργασία ακολουθιών συνεχών τιμών, όπως ήχος και βίντεο, ενδεχομένως επιτρέποντας καλύτερα πολυτροπικά συστήματα τεχνητής νοημοσύνης. Οι ερευνητές έχουν διαθέσει τον κώδικά τους δημόσια στο GitHub, δίνοντας τη δυνατότητα σε άλλους ερευνητές και προγραμματιστές να βασιστούν στη δουλειά τους.

"Η υπέρβαση του τοκενισμού δεν αφορά τους tokenizers, αλλά την εκμάθηση αφαιρέσεων," έγραψε ο Albert Gu σε ανάρτησή του στο blog εξηγώντας το έργο. "Η ανακάλυψη ενός εργαλείου που μπορεί να το κάνει αυτό θα ξεκλειδώσει νέες δυνατότητες." Καθώς τα συστήματα τεχνητής νοημοσύνης συνεχίζουν να εξελίσσονται, το H-Net αποτελεί ένα σημαντικό βήμα προς πιο ευέλικτα, αποδοτικά και ικανά μοντέλα που μπορούν να κατανοήσουν καλύτερα τις πολυπλοκότητες της ανθρώπινης γλώσσας και άλλων διαδοχικών δεδομένων.

Source: Theneuron

Latest News