MIT отключва скритата мощ на токенизаторите в невронните мрежи

Изследователи от MIT откриха, че токенизаторите в невронните мрежи могат да извършват генериране и редактиране на изображения без нужда от традиционни генератори, както бе обявено на 22 юли 2025 г. Пробивното изследване, представено на ICML 2025, показва как манипулирането на отделни токени в едномерни токенизатори води до визуално разпознаваеми промени в изображенията, позволявайки ефективна обработка с драстично намалени изчислителни разходи. Този подход използва система от токенизатор и декодер, насочвана от CLIP, за текстово-управлявано редактиране и генериране.

Екип от изследователи в MIT разкри, че компоненти на невронните мрежи, които досега се смятаха само за енкодери, всъщност могат самостоятелно да извършват сложни задачи по генериране и манипулиране на изображения.

Изследването, представено на Международната конференция по машинно обучение (ICML 2025) във Ванкувър, показва, че едномерните (1D) токенизатори — невронни мрежи, които компресират визуалната информация в последователности от дискретни токени — притежават неизползван генеративен потенциал, който елиминира нуждата от традиционни генератори на изображения.

Водени от докторанта Лукас Лао Байер от Лабораторията по информационни и управленски системи (LIDS) към MIT, екипът открива, че манипулирането на отделни токени в тези компресирани представяния води до специфични, предвидими промени в получените изображения. „Това е напълно нов резултат, тъй като досега никой не беше наблюдавал визуално разпознаваеми промени при манипулиране на токени“, обяснява Лао Байер.

Изследователите установяват, че замяната на единични токени може да преобрази качеството на изображението от ниска към висока резолюция, да регулира замъгляването на фона, да променя нивата на яркост или дори да изменя позата на обекти в изображението. Това откритие отваря нови възможности за ефективна обработка на изображения чрез директна манипулация на токени.

Още по-значимо е, че екипът на MIT демонстрира нов подход за генериране на изображения, който изисква само 1D токенизатор и декодер (наричан още детокенизатор), насочвани от готова невронна мрежа CLIP. Тази система може да преобразува един тип изображение в друг — например да превърне червена панда в тигър — или да генерира изцяло нови изображения от случайни токенни стойности, които се оптимизират итеративно.

Подходът стъпва върху пробив от 2024 г. на изследователи от Техническия университет в Мюнхен и ByteDance, които разработват метод за компресиране на изображения с размер 256×256 пиксела само в 32 токена, в сравнение с 256 токена, използвани от предишни токенизатори. Иновацията на MIT показва, че тези силно компресирани представяния съдържат богата семантична информация, която може да се използва за креативни приложения.

В екипа участват още Тианхонг Ли от Лабораторията по компютърни науки и изкуствен интелект (CSAIL) към MIT, Синлей Чен от Facebook AI Research, професор Сертач Караман и доц. Кайминг Хъ от MIT. Техните открития подсказват за по-ефективно изчислително бъдеще на AI-генерирането на изображения — индустрия, която се очаква да достигне милиарден оборот до края на това десетилетие.

MIT отключва скритата мощ на токенизаторите в невронните мрежи

Latest News

Тръмп представя смела стратегия за изкуствения интелект с цел глобално господство на САЩ

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

Google разширява семейството Gemini 2.5 с нови модели и инструменти за разработчици

Сателитната AI система на Google разкри първите изображения на горски пожари

Тръмп обяви AI хъб за 92 милиарда долара, който ще преобрази Пенсилвания

AI на DeepMind разкодира скрития регулаторен код на ДНК

NetClass открива хъб в Сингапур за ускоряване на глобалната експанзия в AI образованието

Сателит с изкуствен интелект открива миниатюрни горски пожари, невидими за други системи

Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

AWS представи платформата AgentCore за трансформация на корпоративните AI агенти

MIT отключва скритата мощ на токенизаторите в невронните мрежи

Related Articles

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

AI на DeepMind разкодира скрития регулаторен код на ДНК

NetClass открива хъб в Сингапур за ускоряване на глобалната експанзия в AI образованието

Сателит с изкуствен интелект открива миниатюрни горски пожари, невидими за други системи

Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

Latest News

Тръмп представя смела стратегия за изкуствения интелект с цел глобално господство на САЩ

NVIDIA трансформира маркетинга с OpenUSD и агентни AI инструменти

Google разширява семейството Gemini 2.5 с нови модели и инструменти за разработчици

Сателитната AI система на Google разкри първите изображения на горски пожари

Тръмп обяви AI хъб за 92 милиарда долара, който ще преобрази Пенсилвания

AI на DeepMind разкодира скрития регулаторен код на ДНК

NetClass открива хъб в Сингапур за ускоряване на глобалната експанзия в AI образованието

Сателит с изкуствен интелект открива миниатюрни горски пожари, невидими за други системи

Пробивът на H-Net в изкуствения интелект премахва твърдите правила за токенизация

AWS представи платформата AgentCore за трансформация на корпоративните AI агенти