Μια ομάδα υπό την ηγεσία του διδακτορικού φοιτητή Sukjun Hwang και των καθηγητών Brandon Wang και Albert Gu στο Πανεπιστήμιο Carnegie Mellon ανέπτυξε μια πρωτοποριακή αρχιτεκτονική τεχνητής νοημοσύνης με την ονομασία H-Net, η οποία μπορεί να μεταμορφώσει τον τρόπο με τον οποίο τα γλωσσικά μοντέλα επεξεργάζονται κείμενο και άλλα διαδοχικά δεδομένα.
Τα παραδοσιακά γλωσσικά μοντέλα βασίζονται στον τοκενισμό—ένα βήμα προεπεξεργασίας που διασπά το κείμενο σε μικρότερες μονάδες σύμφωνα με άκαμπτους κανόνες. Αυτή η προσέγγιση δημιουργεί θεμελιώδεις περιορισμούς, ειδικά για γλώσσες χωρίς σαφή όρια λέξεων και εξειδικευμένους τομείς όπως η γονιδιωματική. Το H-Net εξαλείφει αυτόν τον περιορισμό εφαρμόζοντας έναν δυναμικό μηχανισμό τμηματοποίησης, ο οποίος μαθαίνει αυτόματα τον πιο αποτελεσματικό τρόπο διαχωρισμού του κειμένου κατά την εκπαίδευση.
Η εργασία των ερευνητών, που δημοσιεύτηκε στο arXiv στις 10 Ιουλίου και ενημερώθηκε στις 15 Ιουλίου 2025, αποδεικνύει ότι το H-Net επιτυγχάνει σχεδόν 4 φορές μεγαλύτερη αποδοτικότητα δεδομένων στην επεξεργασία αλληλουχιών DNA σε σύγκριση με τις συμβατικές προσεγγίσεις. Το σύστημα παρουσιάζει επίσης ανώτερη απόδοση σε πολλές γλώσσες, με ιδιαίτερα ισχυρά αποτελέσματα για τα Κινέζικα και τον προγραμματιστικό κώδικα.
Αυτό που καθιστά το H-Net επαναστατικό είναι η ικανότητά του να μαθαίνει στρατηγικές τμηματοποίησης που εξαρτώνται από το περιεχόμενο και τα συμφραζόμενα, χωρίς ρητή εποπτεία. Το μοντέλο λειτουργεί σε επίπεδο byte και ενσωματώνει μια ιεραρχική δομή δικτύου που μπορεί να επαναληφθεί σε πολλαπλά στάδια, επιτρέποντάς του να μοντελοποιεί διαφορετικά επίπεδα αφαίρεσης. Αυτή η προσέγγιση επιτρέπει στο H-Net να φτάνει την απόδοση των token-based Transformers διπλάσιου μεγέθους.
Πέρα από την επεξεργασία γλώσσας, το H-Net ανοίγει δυνατότητες για την επεξεργασία ακολουθιών συνεχών τιμών, όπως ήχος και βίντεο, ενδεχομένως επιτρέποντας καλύτερα πολυτροπικά συστήματα τεχνητής νοημοσύνης. Οι ερευνητές έχουν διαθέσει τον κώδικά τους δημόσια στο GitHub, δίνοντας τη δυνατότητα σε άλλους ερευνητές και προγραμματιστές να βασιστούν στη δουλειά τους.
"Η υπέρβαση του τοκενισμού δεν αφορά τους tokenizers, αλλά την εκμάθηση αφαιρέσεων," έγραψε ο Albert Gu σε ανάρτησή του στο blog εξηγώντας το έργο. "Η ανακάλυψη ενός εργαλείου που μπορεί να το κάνει αυτό θα ξεκλειδώσει νέες δυνατότητες." Καθώς τα συστήματα τεχνητής νοημοσύνης συνεχίζουν να εξελίσσονται, το H-Net αποτελεί ένα σημαντικό βήμα προς πιο ευέλικτα, αποδοτικά και ικανά μοντέλα που μπορούν να κατανοήσουν καλύτερα τις πολυπλοκότητες της ανθρώπινης γλώσσας και άλλων διαδοχικών δεδομένων.