Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

Изследователи от Университета Карнеги Мелън представиха H-Net на 23 юли 2025 г. – революционна AI система, която автоматично научава оптималното сегментиране на текст по време на обучението, вместо да разчита на предварително зададени правила за токенизация. Системата демонстрира почти 4 пъти по-добра производителност при обработката на ДНК последователности и значителни подобрения при множество езици в сравнение с традиционните методи. Този адаптивен подход към текстовата обработка представлява фундаментален напредък в начина, по който AI системите разбират и обработват различни типове данни.

Екип, ръководен от докторанта Сукджун Хуанг и професорите Брандън Уанг и Албърт Гу в Университета Карнеги Мелън, разработи новаторска AI архитектура, наречена H-Net, която може да промени начина, по който езиковите модели обработват текст и други последователни данни.

Традиционните езикови модели разчитат на токенизация – предварителна стъпка, която разделя текста на по-малки единици според твърди правила. Този подход създава основни ограничения, особено за езици без ясни граници между думите и за специализирани области като геномиката. H-Net премахва това ограничение чрез динамичен механизъм за разделяне на текст, който автоматично научава най-ефективния начин за сегментиране по време на обучението.

Статията на изследователите, публикувана в arXiv на 10 юли и обновена на 15 юли 2025 г., показва, че H-Net постига почти 4 пъти по-добра ефективност при обработката на ДНК последователности в сравнение с конвенционалните подходи. Системата демонстрира също превъзходна производителност при множество езици, с особено силни резултати при китайски и програмен код.

Това, което прави H-Net революционен, е способността му да научава стратегии за сегментиране, зависещи от съдържанието и контекста, без явен надзор. Моделът работи на байтово ниво и включва йерархична мрежова структура, която може да се итерира в няколко етапа, позволявайки моделиране на различни нива на абстракция. Този подход позволява на H-Net да достига производителността на токен-базирани трансформъри с двойно по-голям размер.

Освен езиковата обработка, H-Net отваря възможности за обработка на последователности с непрекъснати стойности като аудио и видео, което потенциално ще позволи по-добри мултимодални AI системи. Изследователите са направили кода си публично достъпен в GitHub, което позволява на други учени и разработчици да надграждат върху тяхната работа.

„Преодоляването на токенизацията не е въпрос на токенизатори, а на научаване на абстракции“, пише Албърт Гу в блог пост, обясняващ проекта. „Откриването на инструмент, който може да направи това, ще отключи нови възможности.“ Докато AI системите продължават да се развиват, H-Net представлява значителна стъпка към по-гъвкави, ефективни и способни модели, които могат по-добре да разбират сложността на човешкия език и други последователни данни.

Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

Latest News

Тръмп представя смела стратегия за изкуствения интелект с цел глобално господство на САЩ

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

Google разширява семейството Gemini 2.5 с нови модели и инструменти за разработчици

Сателитната AI система на Google разкри първите изображения на горски пожари

Тръмп обяви AI хъб за 92 милиарда долара, който ще преобрази Пенсилвания

AI на DeepMind разкодира скрития регулаторен код на ДНК

NetClass открива хъб в Сингапур за ускоряване на глобалната експанзия в AI образованието

Сателит с изкуствен интелект открива миниатюрни горски пожари, невидими за други системи

AWS представи платформата AgentCore за трансформация на корпоративните AI агенти

Meta и AWS обединяват сили за насърчаване на иновациите в AI стартъпите

Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

Related Articles

Тръмп представя смела стратегия за изкуствения интелект с цел глобално господство на САЩ

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

Google разширява семейството Gemini 2.5 с нови модели и инструменти за разработчици

Сателитната AI система на Google разкри първите изображения на горски пожари

Тръмп обяви AI хъб за 92 милиарда долара, който ще преобрази Пенсилвания

Latest News

Тръмп представя смела стратегия за изкуствения интелект с цел глобално господство на САЩ

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

Google разширява семейството Gemini 2.5 с нови модели и инструменти за разработчици

Сателитната AI система на Google разкри първите изображения на горски пожари

Тръмп обяви AI хъб за 92 милиарда долара, който ще преобрази Пенсилвания

AI на DeepMind разкодира скрития регулаторен код на ДНК

NetClass открива хъб в Сингапур за ускоряване на глобалната експанзия в AI образованието

Сателит с изкуствен интелект открива миниатюрни горски пожари, невидими за други системи

AWS представи платформата AgentCore за трансформация на корпоративните AI агенти

Meta и AWS обединяват сили за насърчаване на иновациите в AI стартъпите