menu
close

H-Net AI Pecahkan Batasan Peraturan Tokenisasi Ketat

Penyelidik dari Carnegie Mellon University telah memperkenalkan H-Net pada 23 Julai 2025, sebuah sistem AI revolusioner yang secara automatik mempelajari segmentasi teks paling optimum semasa latihan tanpa bergantung pada peraturan tokenisasi yang telah diprogramkan. Sistem ini menunjukkan prestasi hampir 4 kali ganda lebih baik pada urutan DNA dan peningkatan ketara merentasi pelbagai bahasa berbanding kaedah tradisional. Pendekatan adaptif dalam pemprosesan teks ini menandakan kemajuan asas dalam cara sistem AI memahami dan memproses pelbagai jenis data.
H-Net AI Pecahkan Batasan Peraturan Tokenisasi Ketat

Sekumpulan penyelidik yang diketuai oleh pelajar PhD Sukjun Hwang bersama profesor Brandon Wang dan Albert Gu di Carnegie Mellon University telah membangunkan seni bina AI baharu yang dinamakan H-Net, berpotensi mengubah cara model bahasa memproses teks dan data berurutan lain.

Model bahasa tradisional bergantung kepada tokenisasi—langkah pra-pemprosesan yang memecahkan teks kepada unit-unit kecil mengikut peraturan ketat. Pendekatan ini mewujudkan had asas, terutamanya untuk bahasa tanpa sempadan perkataan yang jelas dan domain khusus seperti genomik. H-Net menghapuskan kekangan ini dengan melaksanakan mekanisme chunking dinamik yang secara automatik mempelajari cara paling berkesan untuk membahagikan teks semasa latihan.

Makalah penyelidik yang diterbitkan di arXiv pada 10 Julai dan dikemas kini pada 15 Julai 2025 menunjukkan bahawa H-Net mencapai peningkatan kecekapan data hampir 4 kali ganda dalam memproses urutan DNA berbanding pendekatan konvensional. Sistem ini turut mempamerkan prestasi lebih unggul merentasi pelbagai bahasa, dengan keputusan sangat memberangsangkan untuk bahasa Cina dan kod pengaturcaraan.

Apa yang menjadikan H-Net benar-benar revolusioner ialah keupayaannya mempelajari strategi segmentasi yang bergantung pada kandungan dan konteks tanpa penyeliaan eksplisit. Model ini beroperasi pada peringkat bait dan menggabungkan struktur rangkaian hierarki yang boleh diulang ke beberapa peringkat, membolehkannya memodelkan pelbagai tahap abstraksi. Pendekatan ini membolehkan H-Net menyamai prestasi Transformer berasaskan token yang dua kali ganda lebih besar saiznya.

Selain pemprosesan bahasa, H-Net membuka peluang untuk memproses urutan bernilai berterusan seperti audio dan video, berpotensi membolehkan sistem AI multimodal yang lebih baik. Para penyelidik telah berkongsi kod mereka secara terbuka di GitHub, membolehkan penyelidik dan pembangun lain membina di atas hasil kerja mereka.

"Mengatasi tokenisasi bukan sekadar tentang penjana token, tetapi tentang mempelajari abstraksi," tulis Albert Gu dalam satu catatan blog menerangkan projek ini. "Menemui alat yang mampu melakukan ini akan membuka keupayaan baharu." Seiring sistem AI terus berkembang, H-Net mewakili langkah penting ke arah model yang lebih fleksibel, cekap dan berupaya memahami kerumitan bahasa manusia serta data berurutan lain dengan lebih baik.

Source: Theneuron

Latest News