menu
close

Прорив H-Net у сфері ШІ: кінець жорстким правилам токенізації

23 липня 2025 року дослідники з Університету Карнегі-Меллон представили H-Net — революційну систему штучного інтелекту, яка під час навчання автоматично навчається оптимальному сегментуванню тексту, замість використання наперед заданих правил токенізації. Система демонструє майже в 4 рази кращу ефективність при обробці ДНК-послідовностей і суттєві покращення для багатьох мов у порівнянні з традиційними методами. Цей адаптивний підхід до обробки тексту є фундаментальним кроком вперед у тому, як ШІ розуміє й опрацьовує різні типи даних.
Прорив H-Net у сфері ШІ: кінець жорстким правилам токенізації

Команда під керівництвом аспіранта Сукджуна Хвана та професорів Брендона Вана і Альберта Гу з Університету Карнегі-Меллон розробила новаторську архітектуру штучного інтелекту під назвою H-Net, яка може змінити спосіб обробки тексту та інших послідовних даних мовними моделями.

Традиційні мовні моделі покладаються на токенізацію — попередній етап обробки, що розбиває текст на менші одиниці за жорсткими правилами. Такий підхід має фундаментальні обмеження, особливо для мов без чітких меж між словами та спеціалізованих галузей, як-от геноміка. H-Net усуває цю проблему, впроваджуючи динамічний механізм поділу на фрагменти, який автоматично навчається найефективнішому способу сегментування тексту під час навчання.

У статті дослідників, опублікованій на arXiv 10 липня та оновленій 15 липня 2025 року, показано, що H-Net забезпечує майже в 4 рази кращу ефективність використання даних при обробці ДНК-послідовностей порівняно з традиційними підходами. Система також демонструє перевагу у багатьох мовах, особливо сильні результати — для китайської мови та програмного коду.

Революційність H-Net полягає у здатності моделі самостійно навчатися стратегіям сегментування залежно від змісту й контексту без явного нагляду. Модель працює на рівні байтів і використовує ієрархічну мережеву структуру, яку можна ітерувати на кілька рівнів, що дозволяє моделювати різні рівні абстракції. Такий підхід дає змогу H-Net досягати продуктивності токенізованих трансформерів, які вдвічі більші за розміром.

Окрім обробки мов, H-Net відкриває нові можливості для роботи з послідовностями з неперервними значеннями, такими як аудіо та відео, що потенційно дозволить створювати кращі мультимодальні системи ШІ. Дослідники відкрили вихідний код H-Net на GitHub, щоб інші науковці та розробники могли розвивати їхню роботу.

"Подолання токенізації — це не про токенізатори, а про навчання абстракціям", — написав Альберт Гу у блозі, присвяченому проєкту. "Відкриття інструменту, здатного на це, відкриє нові можливості". У міру розвитку систем ШІ H-Net є важливим кроком до більш гнучких, ефективних і потужних моделей, які краще розуміють складність людської мови та інших послідовних даних.

Source: Theneuron

Latest News