Sebuah tim yang dipimpin oleh mahasiswa PhD Sukjun Hwang serta profesor Brandon Wang dan Albert Gu di Carnegie Mellon University telah mengembangkan arsitektur AI inovatif bernama H-Net yang berpotensi mengubah cara model bahasa memproses teks dan data berurutan lainnya.
Model bahasa tradisional bergantung pada tokenisasi—langkah pra-pemrosesan yang memecah teks menjadi unit-unit kecil berdasarkan aturan yang kaku. Pendekatan ini menimbulkan keterbatasan mendasar, terutama untuk bahasa tanpa batas kata yang jelas dan domain khusus seperti genomik. H-Net menghilangkan kendala ini dengan menerapkan mekanisme chunking dinamis yang secara otomatis mempelajari cara segmentasi teks paling efektif selama pelatihan.
Makalah para peneliti, yang dipublikasikan di arXiv pada 10 Juli dan diperbarui pada 15 Juli 2025, menunjukkan bahwa H-Net mencapai efisiensi data hampir 4x lipat saat memproses urutan DNA dibandingkan pendekatan konvensional. Sistem ini juga menunjukkan performa unggul di berbagai bahasa, dengan hasil sangat baik untuk bahasa Mandarin dan kode pemrograman.
Yang membuat H-Net revolusioner adalah kemampuannya mempelajari strategi segmentasi yang bergantung pada konten dan konteks tanpa supervisi eksplisit. Model ini beroperasi di tingkat byte dan mengadopsi struktur jaringan hierarkis yang dapat diiterasi ke beberapa tahap, memungkinkannya memodelkan berbagai tingkat abstraksi. Pendekatan ini memungkinkan H-Net menyaingi performa Transformer berbasis token yang ukurannya dua kali lipat lebih besar.
Di luar pemrosesan bahasa, H-Net membuka peluang untuk memproses urutan bernilai kontinu seperti audio dan video, yang berpotensi menghadirkan sistem AI multimodal yang lebih baik. Para peneliti telah membuka kode mereka di GitHub, sehingga peneliti dan pengembang lain dapat membangun di atas karya ini.
"Mengatasi tokenisasi bukan soal tokenizernya, melainkan tentang mempelajari abstraksi," tulis Albert Gu dalam sebuah posting blog yang menjelaskan proyek ini. "Menemukan alat yang dapat melakukan hal ini akan membuka kemampuan baru." Seiring perkembangan sistem AI, H-Net menjadi langkah penting menuju model yang lebih fleksibel, efisien, dan mumpuni untuk memahami kompleksitas bahasa manusia dan data berurutan lainnya.