Ein Team unter der Leitung des Doktoranden Sukjun Hwang sowie der Professoren Brandon Wang und Albert Gu an der Carnegie Mellon University hat mit H-Net eine bahnbrechende KI-Architektur entwickelt, die die Verarbeitung von Text und anderen sequenziellen Daten durch Sprachmodelle grundlegend verändern könnte.
Traditionelle Sprachmodelle setzen auf Tokenisierung – einen Vorverarbeitungsschritt, bei dem Text nach starren Regeln in kleinere Einheiten zerlegt wird. Dieser Ansatz bringt grundlegende Einschränkungen mit sich, insbesondere für Sprachen ohne klare Wortgrenzen und für spezialisierte Bereiche wie die Genomik. H-Net beseitigt diese Einschränkung, indem es einen dynamischen Chunking-Mechanismus implementiert, der während des Trainings automatisch die effektivste Segmentierungsstrategie erlernt.
Die Forschungsarbeit, veröffentlicht am 10. Juli und aktualisiert am 15. Juli 2025 auf arXiv, zeigt, dass H-Net bei der Verarbeitung von DNA-Sequenzen eine fast vierfache Steigerung der Dateneffizienz gegenüber herkömmlichen Ansätzen erreicht. Das System liefert zudem überlegene Ergebnisse in mehreren Sprachen, mit besonders starken Resultaten für Chinesisch und Programmiersprachen.
Das Revolutionäre an H-Net ist die Fähigkeit, inhalts- und kontextabhängige Segmentierungsstrategien ohne explizite Vorgaben zu erlernen. Das Modell arbeitet auf Byte-Ebene und nutzt eine hierarchische Netzwerkstruktur, die sich über mehrere Stufen iterieren lässt, um verschiedene Abstraktionsebenen abzubilden. Dadurch kann H-Net die Leistung von Token-basierten Transformern mit doppelter Größe erreichen.
Über die Sprachverarbeitung hinaus eröffnet H-Net Möglichkeiten zur Verarbeitung kontinuierlicher Sequenzen wie Audio und Video und könnte so leistungsfähigere multimodale KI-Systeme ermöglichen. Der Quellcode wurde von den Forschenden öffentlich auf GitHub bereitgestellt, sodass andere Wissenschaftler und Entwickler darauf aufbauen können.
„Tokenisierung zu überwinden, bedeutet nicht, Tokenizer zu ersetzen, sondern Abstraktionen zu erlernen“, schrieb Albert Gu in einem Blogbeitrag zum Projekt. „Ein Werkzeug zu entdecken, das dies kann, wird neue Möglichkeiten eröffnen.“ Während sich KI-Systeme weiterentwickeln, stellt H-Net einen bedeutenden Schritt hin zu flexibleren, effizienteren und leistungsfähigeren Modellen dar, die die Komplexität menschlicher Sprache und anderer sequenzieller Daten besser erfassen können.