menu
close

H-Net: KI-Durchbruch beseitigt starre Tokenisierungsregeln

Forschende der Carnegie Mellon University haben am 23. Juli 2025 H-Net vorgestellt, ein revolutionäres KI-System, das während des Trainings automatisch optimale Textsegmentierungen erlernt, anstatt sich auf vorprogrammierte Tokenisierungsregeln zu verlassen. Das System erzielt nahezu die vierfache Leistungssteigerung bei DNA-Sequenzen und signifikante Verbesserungen in mehreren Sprachen im Vergleich zu herkömmlichen Methoden. Dieser adaptive Ansatz in der Textverarbeitung stellt einen grundlegenden Fortschritt dar, wie KI-Systeme verschiedene Datentypen verstehen und verarbeiten.
H-Net: KI-Durchbruch beseitigt starre Tokenisierungsregeln

Ein Team unter der Leitung des Doktoranden Sukjun Hwang sowie der Professoren Brandon Wang und Albert Gu an der Carnegie Mellon University hat mit H-Net eine bahnbrechende KI-Architektur entwickelt, die die Verarbeitung von Text und anderen sequenziellen Daten durch Sprachmodelle grundlegend verändern könnte.

Traditionelle Sprachmodelle setzen auf Tokenisierung – einen Vorverarbeitungsschritt, bei dem Text nach starren Regeln in kleinere Einheiten zerlegt wird. Dieser Ansatz bringt grundlegende Einschränkungen mit sich, insbesondere für Sprachen ohne klare Wortgrenzen und für spezialisierte Bereiche wie die Genomik. H-Net beseitigt diese Einschränkung, indem es einen dynamischen Chunking-Mechanismus implementiert, der während des Trainings automatisch die effektivste Segmentierungsstrategie erlernt.

Die Forschungsarbeit, veröffentlicht am 10. Juli und aktualisiert am 15. Juli 2025 auf arXiv, zeigt, dass H-Net bei der Verarbeitung von DNA-Sequenzen eine fast vierfache Steigerung der Dateneffizienz gegenüber herkömmlichen Ansätzen erreicht. Das System liefert zudem überlegene Ergebnisse in mehreren Sprachen, mit besonders starken Resultaten für Chinesisch und Programmiersprachen.

Das Revolutionäre an H-Net ist die Fähigkeit, inhalts- und kontextabhängige Segmentierungsstrategien ohne explizite Vorgaben zu erlernen. Das Modell arbeitet auf Byte-Ebene und nutzt eine hierarchische Netzwerkstruktur, die sich über mehrere Stufen iterieren lässt, um verschiedene Abstraktionsebenen abzubilden. Dadurch kann H-Net die Leistung von Token-basierten Transformern mit doppelter Größe erreichen.

Über die Sprachverarbeitung hinaus eröffnet H-Net Möglichkeiten zur Verarbeitung kontinuierlicher Sequenzen wie Audio und Video und könnte so leistungsfähigere multimodale KI-Systeme ermöglichen. Der Quellcode wurde von den Forschenden öffentlich auf GitHub bereitgestellt, sodass andere Wissenschaftler und Entwickler darauf aufbauen können.

„Tokenisierung zu überwinden, bedeutet nicht, Tokenizer zu ersetzen, sondern Abstraktionen zu erlernen“, schrieb Albert Gu in einem Blogbeitrag zum Projekt. „Ein Werkzeug zu entdecken, das dies kann, wird neue Möglichkeiten eröffnen.“ Während sich KI-Systeme weiterentwickeln, stellt H-Net einen bedeutenden Schritt hin zu flexibleren, effizienteren und leistungsfähigeren Modellen dar, die die Komplexität menschlicher Sprache und anderer sequenzieller Daten besser erfassen können.

Source: Theneuron

Latest News