Команда під керівництвом аспіранта Сукджуна Хвана та професорів Брендона Вана і Альберта Гу з Університету Карнегі-Меллон розробила новаторську архітектуру штучного інтелекту під назвою H-Net, яка може змінити спосіб обробки тексту та інших послідовних даних мовними моделями.
Традиційні мовні моделі покладаються на токенізацію — попередній етап обробки, що розбиває текст на менші одиниці за жорсткими правилами. Такий підхід має фундаментальні обмеження, особливо для мов без чітких меж між словами та спеціалізованих галузей, як-от геноміка. H-Net усуває цю проблему, впроваджуючи динамічний механізм поділу на фрагменти, який автоматично навчається найефективнішому способу сегментування тексту під час навчання.
У статті дослідників, опублікованій на arXiv 10 липня та оновленій 15 липня 2025 року, показано, що H-Net забезпечує майже в 4 рази кращу ефективність використання даних при обробці ДНК-послідовностей порівняно з традиційними підходами. Система також демонструє перевагу у багатьох мовах, особливо сильні результати — для китайської мови та програмного коду.
Революційність H-Net полягає у здатності моделі самостійно навчатися стратегіям сегментування залежно від змісту й контексту без явного нагляду. Модель працює на рівні байтів і використовує ієрархічну мережеву структуру, яку можна ітерувати на кілька рівнів, що дозволяє моделювати різні рівні абстракції. Такий підхід дає змогу H-Net досягати продуктивності токенізованих трансформерів, які вдвічі більші за розміром.
Окрім обробки мов, H-Net відкриває нові можливості для роботи з послідовностями з неперервними значеннями, такими як аудіо та відео, що потенційно дозволить створювати кращі мультимодальні системи ШІ. Дослідники відкрили вихідний код H-Net на GitHub, щоб інші науковці та розробники могли розвивати їхню роботу.
"Подолання токенізації — це не про токенізатори, а про навчання абстракціям", — написав Альберт Гу у блозі, присвяченому проєкту. "Відкриття інструменту, здатного на це, відкриє нові можливості". У міру розвитку систем ШІ H-Net є важливим кроком до більш гнучких, ефективних і потужних моделей, які краще розуміють складність людської мови та інших послідовних даних.