Прорыв H-Net в области ИИ устраняет жёсткие правила токенизации

23 июля 2025 года исследователи из Университета Карнеги-Меллона представили H-Net — революционную систему искусственного интеллекта, которая автоматически обучается оптимальному разбиению текста на сегменты во время обучения, вместо использования заранее заданных правил токенизации. Система демонстрирует почти четырёхкратное превосходство в обработке последовательностей ДНК и значительные улучшения для различных языков по сравнению с традиционными методами. Этот адаптивный подход к обработке текста является фундаментальным шагом вперёд в понимании и анализе данных системами ИИ.

Команда под руководством аспиранта Сукджуна Хвана и профессоров Брандона Ванга и Альберта Гу из Университета Карнеги-Меллона разработала новаторскую архитектуру искусственного интеллекта под названием H-Net, которая способна изменить подход к обработке текста и других последовательных данных языковыми моделями.

Традиционные языковые модели используют токенизацию — этап предварительной обработки, разбивающий текст на более мелкие единицы согласно жёстким правилам. Такой подход накладывает серьёзные ограничения, особенно для языков без чётких границ между словами и специализированных областей, таких как геномика. H-Net устраняет это ограничение, реализуя динамический механизм разбиения, который автоматически обучается наиболее эффективному способу сегментирования текста в процессе обучения.

В статье исследователей, опубликованной на arXiv 10 июля и обновлённой 15 июля 2025 года, показано, что H-Net обеспечивает почти четырёхкратное повышение эффективности обработки данных при работе с последовательностями ДНК по сравнению с традиционными подходами. Система также демонстрирует превосходные результаты для различных языков, особенно для китайского и программного кода.

Революционность H-Net заключается в его способности самостоятельно осваивать стратегии сегментации, зависящие от содержания и контекста, без явного надзора. Модель работает на уровне байтов и использует иерархическую сетевую структуру, которую можно многократно итеративно применять, что позволяет моделировать различные уровни абстракции. Такой подход позволяет H-Net достигать производительности токен-базированных трансформеров, вдвое превышающих его по размеру.

Помимо обработки естественного языка, H-Net открывает новые возможности для работы с непрерывными последовательностями, такими как аудио и видео, что потенциально позволит создавать более совершенные мультимодальные ИИ-системы. Исследователи выложили исходный код проекта в открытый доступ на GitHub, чтобы другие учёные и разработчики могли использовать и развивать их наработки.

"Преодоление токенизации — это не вопрос токенизаторов, а вопрос обучения абстракциям", — написал Альберт Гу в блоге, посвящённом проекту. — "Открытие инструмента, способного на это, откроет новые возможности". По мере развития систем искусственного интеллекта H-Net становится важным шагом к созданию более гибких, эффективных и мощных моделей, способных глубже понимать сложность человеческого языка и других последовательных данных.

Прорыв H-Net в области ИИ устраняет жёсткие правила токенизации

Latest News

Трамп представляет смелую стратегию в области ИИ для обеспечения глобального лидерства США

NVIDIA преобразует маркетинг с помощью OpenUSD и агентных ИИ-инструментов

Google расширяет семейство Gemini 2.5 новыми моделями и инструментами для разработчиков

ИИ-спутниковая система Google впервые показала снимки лесных пожаров

Трамп объявил о создании AI-хаба в Пенсильвании с инвестициями в $92 млрд

ИИ DeepMind расшифровал скрытый регуляторный код ДНК

NetClass открывает хаб в Сингапуре для ускорения глобальной экспансии в сфере ИИ-образования

Спутник с ИИ обнаружил крошечные лесные пожары, невидимые для других систем

AWS представляет платформу AgentCore для трансформации корпоративных ИИ-агентов

Meta и AWS объединяют усилия для поддержки инноваций в AI-стартапах

Прорыв H-Net в области ИИ устраняет жёсткие правила токенизации

Related Articles

Трамп представляет смелую стратегию в области ИИ для обеспечения глобального лидерства США

NVIDIA преобразует маркетинг с помощью OpenUSD и агентных ИИ-инструментов

Google расширяет семейство Gemini 2.5 новыми моделями и инструментами для разработчиков

ИИ-спутниковая система Google впервые показала снимки лесных пожаров

Трамп объявил о создании AI-хаба в Пенсильвании с инвестициями в $92 млрд

Latest News

Трамп представляет смелую стратегию в области ИИ для обеспечения глобального лидерства США

NVIDIA преобразует маркетинг с помощью OpenUSD и агентных ИИ-инструментов

Google расширяет семейство Gemini 2.5 новыми моделями и инструментами для разработчиков

ИИ-спутниковая система Google впервые показала снимки лесных пожаров

Трамп объявил о создании AI-хаба в Пенсильвании с инвестициями в $92 млрд

ИИ DeepMind расшифровал скрытый регуляторный код ДНК

NetClass открывает хаб в Сингапуре для ускорения глобальной экспансии в сфере ИИ-образования

Спутник с ИИ обнаружил крошечные лесные пожары, невидимые для других систем

AWS представляет платформу AgentCore для трансформации корпоративных ИИ-агентов

Meta и AWS объединяют усилия для поддержки инноваций в AI-стартапах