Команда под руководством аспиранта Сукджуна Хвана и профессоров Брандона Ванга и Альберта Гу из Университета Карнеги-Меллона разработала новаторскую архитектуру искусственного интеллекта под названием H-Net, которая способна изменить подход к обработке текста и других последовательных данных языковыми моделями.
Традиционные языковые модели используют токенизацию — этап предварительной обработки, разбивающий текст на более мелкие единицы согласно жёстким правилам. Такой подход накладывает серьёзные ограничения, особенно для языков без чётких границ между словами и специализированных областей, таких как геномика. H-Net устраняет это ограничение, реализуя динамический механизм разбиения, который автоматически обучается наиболее эффективному способу сегментирования текста в процессе обучения.
В статье исследователей, опубликованной на arXiv 10 июля и обновлённой 15 июля 2025 года, показано, что H-Net обеспечивает почти четырёхкратное повышение эффективности обработки данных при работе с последовательностями ДНК по сравнению с традиционными подходами. Система также демонстрирует превосходные результаты для различных языков, особенно для китайского и программного кода.
Революционность H-Net заключается в его способности самостоятельно осваивать стратегии сегментации, зависящие от содержания и контекста, без явного надзора. Модель работает на уровне байтов и использует иерархическую сетевую структуру, которую можно многократно итеративно применять, что позволяет моделировать различные уровни абстракции. Такой подход позволяет H-Net достигать производительности токен-базированных трансформеров, вдвое превышающих его по размеру.
Помимо обработки естественного языка, H-Net открывает новые возможности для работы с непрерывными последовательностями, такими как аудио и видео, что потенциально позволит создавать более совершенные мультимодальные ИИ-системы. Исследователи выложили исходный код проекта в открытый доступ на GitHub, чтобы другие учёные и разработчики могли использовать и развивать их наработки.
"Преодоление токенизации — это не вопрос токенизаторов, а вопрос обучения абстракциям", — написал Альберт Гу в блоге, посвящённом проекту. — "Открытие инструмента, способного на это, откроет новые возможности". По мере развития систем искусственного интеллекта H-Net становится важным шагом к созданию более гибких, эффективных и мощных моделей, способных глубже понимать сложность человеческого языка и других последовательных данных.