Sekumpulan penyelidik yang diketuai oleh pelajar PhD Sukjun Hwang bersama profesor Brandon Wang dan Albert Gu di Carnegie Mellon University telah membangunkan seni bina AI baharu yang dinamakan H-Net, berpotensi mengubah cara model bahasa memproses teks dan data berurutan lain.
Model bahasa tradisional bergantung kepada tokenisasi—langkah pra-pemprosesan yang memecahkan teks kepada unit-unit kecil mengikut peraturan ketat. Pendekatan ini mewujudkan had asas, terutamanya untuk bahasa tanpa sempadan perkataan yang jelas dan domain khusus seperti genomik. H-Net menghapuskan kekangan ini dengan melaksanakan mekanisme chunking dinamik yang secara automatik mempelajari cara paling berkesan untuk membahagikan teks semasa latihan.
Makalah penyelidik yang diterbitkan di arXiv pada 10 Julai dan dikemas kini pada 15 Julai 2025 menunjukkan bahawa H-Net mencapai peningkatan kecekapan data hampir 4 kali ganda dalam memproses urutan DNA berbanding pendekatan konvensional. Sistem ini turut mempamerkan prestasi lebih unggul merentasi pelbagai bahasa, dengan keputusan sangat memberangsangkan untuk bahasa Cina dan kod pengaturcaraan.
Apa yang menjadikan H-Net benar-benar revolusioner ialah keupayaannya mempelajari strategi segmentasi yang bergantung pada kandungan dan konteks tanpa penyeliaan eksplisit. Model ini beroperasi pada peringkat bait dan menggabungkan struktur rangkaian hierarki yang boleh diulang ke beberapa peringkat, membolehkannya memodelkan pelbagai tahap abstraksi. Pendekatan ini membolehkan H-Net menyamai prestasi Transformer berasaskan token yang dua kali ganda lebih besar saiznya.
Selain pemprosesan bahasa, H-Net membuka peluang untuk memproses urutan bernilai berterusan seperti audio dan video, berpotensi membolehkan sistem AI multimodal yang lebih baik. Para penyelidik telah berkongsi kod mereka secara terbuka di GitHub, membolehkan penyelidik dan pembangun lain membina di atas hasil kerja mereka.
"Mengatasi tokenisasi bukan sekadar tentang penjana token, tetapi tentang mempelajari abstraksi," tulis Albert Gu dalam satu catatan blog menerangkan projek ini. "Menemui alat yang mampu melakukan ini akan membuka keupayaan baharu." Seiring sistem AI terus berkembang, H-Net mewakili langkah penting ke arah model yang lebih fleksibel, cekap dan berupaya memahami kerumitan bahasa manusia serta data berurutan lain dengan lebih baik.