menu
close

Прорыв H-Net в области ИИ устраняет жёсткие правила токенизации

23 июля 2025 года исследователи из Университета Карнеги-Меллона представили H-Net — революционную систему искусственного интеллекта, которая автоматически обучается оптимальному разбиению текста на сегменты во время обучения, вместо использования заранее заданных правил токенизации. Система демонстрирует почти четырёхкратное превосходство в обработке последовательностей ДНК и значительные улучшения для различных языков по сравнению с традиционными методами. Этот адаптивный подход к обработке текста является фундаментальным шагом вперёд в понимании и анализе данных системами ИИ.
Прорыв H-Net в области ИИ устраняет жёсткие правила токенизации

Команда под руководством аспиранта Сукджуна Хвана и профессоров Брандона Ванга и Альберта Гу из Университета Карнеги-Меллона разработала новаторскую архитектуру искусственного интеллекта под названием H-Net, которая способна изменить подход к обработке текста и других последовательных данных языковыми моделями.

Традиционные языковые модели используют токенизацию — этап предварительной обработки, разбивающий текст на более мелкие единицы согласно жёстким правилам. Такой подход накладывает серьёзные ограничения, особенно для языков без чётких границ между словами и специализированных областей, таких как геномика. H-Net устраняет это ограничение, реализуя динамический механизм разбиения, который автоматически обучается наиболее эффективному способу сегментирования текста в процессе обучения.

В статье исследователей, опубликованной на arXiv 10 июля и обновлённой 15 июля 2025 года, показано, что H-Net обеспечивает почти четырёхкратное повышение эффективности обработки данных при работе с последовательностями ДНК по сравнению с традиционными подходами. Система также демонстрирует превосходные результаты для различных языков, особенно для китайского и программного кода.

Революционность H-Net заключается в его способности самостоятельно осваивать стратегии сегментации, зависящие от содержания и контекста, без явного надзора. Модель работает на уровне байтов и использует иерархическую сетевую структуру, которую можно многократно итеративно применять, что позволяет моделировать различные уровни абстракции. Такой подход позволяет H-Net достигать производительности токен-базированных трансформеров, вдвое превышающих его по размеру.

Помимо обработки естественного языка, H-Net открывает новые возможности для работы с непрерывными последовательностями, такими как аудио и видео, что потенциально позволит создавать более совершенные мультимодальные ИИ-системы. Исследователи выложили исходный код проекта в открытый доступ на GitHub, чтобы другие учёные и разработчики могли использовать и развивать их наработки.

"Преодоление токенизации — это не вопрос токенизаторов, а вопрос обучения абстракциям", — написал Альберт Гу в блоге, посвящённом проекту. — "Открытие инструмента, способного на это, откроет новые возможности". По мере развития систем искусственного интеллекта H-Net становится важным шагом к созданию более гибких, эффективных и мощных моделей, способных глубже понимать сложность человеческого языка и других последовательных данных.

Source: Theneuron

Latest News