MIT розкриває приховану потужність токенізаторів нейронних мереж

Дослідники MIT виявили, що токенізатори нейронних мереж можуть генерувати та редагувати зображення без традиційних генераторів, про що було оголошено 22 липня 2025 року. Проривне дослідження, представлене на ICML 2025, демонструє, як маніпуляції окремими токенами в одновимірних токенізаторах призводять до візуально впізнаваних змін на зображеннях, забезпечуючи ефективну обробку зображень із суттєво зниженими обчислювальними витратами. Цей підхід використовує систему токенізатор-декодер під керуванням CLIP для текстово-орієнтованого редагування та генерації.

Команда дослідників Массачусетського технологічного інституту (MIT) виявила, що компоненти нейронних мереж, які раніше вважалися лише енкодерами, насправді здатні самостійно виконувати складні завдання з генерації та маніпуляції зображеннями.

Дослідження, представлене на Міжнародній конференції з машинного навчання (ICML 2025) у Ванкувері, демонструє, що одновимірні (1D) токенізатори — нейронні мережі, які стискають візуальну інформацію в послідовності дискретних токенів — мають невикористаний генеративний потенціал, що дозволяє обходитися без традиційних генераторів зображень.

Під керівництвом аспіранта Лукаса Лао Бейєра з Лабораторії інформаційних та рішеньних систем MIT (LIDS), команда з'ясувала, що маніпуляції окремими токенами в цих стиснених представленнях призводять до конкретних, передбачуваних змін у результатних зображеннях. «Це був безпрецедентний результат, адже раніше ніхто не спостерігав візуально впізнаваних змін від маніпуляцій токенами», — пояснив Лао Бейєр.

Дослідники встановили, що заміна окремих токенів може змінювати якість зображення від низької до високої роздільної здатності, регулювати розмитість фону, змінювати рівень яскравості або навіть змінювати позу об'єктів на зображенні. Це відкриття створює нові можливості для ефективного редагування зображень шляхом прямої маніпуляції токенами.

Ще важливішим є те, що команда MIT продемонструвала новий підхід до генерації зображень, який вимагає лише 1D токенізатора та декодера (також званого детокенізатором), під керуванням готової нейронної мережі CLIP. Ця система здатна перетворювати один тип зображення на інший — наприклад, змінювати червону панду на тигра — або генерувати абсолютно нові зображення з випадкових токенів, які оптимізуються ітеративно.

Підхід базується на прориві 2024 року від дослідників Технічного університету Мюнхена та ByteDance, які розробили метод стискання зображень розміром 256×256 пікселів усього до 32 токенів, порівняно з 256 токенами, які зазвичай використовувалися попередніми токенізаторами. Інновація MIT демонструє, що ці високостиснені представлення містять багату семантичну інформацію, яку можна використовувати для творчих застосувань.

До складу дослідницької групи входять Тяньхонг Лі з Лабораторії комп'ютерних наук та штучного інтелекту MIT (CSAIL), Сінлей Чен з Facebook AI Research, професор MIT Сертач Караман і доцент MIT Каймін Хе. Їхні результати вказують на більш обчислювально ефективне майбутнє генерації зображень штучним інтелектом, яка, за прогнозами, стане індустрією з мільярдними оборотами до кінця цього десятиліття.

MIT розкриває приховану потужність токенізаторів нейронних мереж

Latest News

Трамп презентує амбітну стратегію зі штучного інтелекту для зміцнення глобального лідерства США

NVIDIA трансформує маркетинг за допомогою OpenUSD та агентних AI-інструментів

Google розширює сімейство Gemini 2.5 новими моделями та інструментами для розробників

Супутникова система Google на основі ШІ вперше показала знімки лісових пожеж

Трамп презентував AI-хаб у Пенсільванії на $92 млрд для трансформації штату

ШІ DeepMind розшифровує прихований регуляторний код ДНК

NetClass відкриває хаб у Сінгапурі для прискорення глобальної експансії в сфері AI-освіти

Супутник на основі ШІ виявляє дрібні лісові пожежі, невидимі для інших систем

Прорив H-Net у сфері ШІ: кінець жорстким правилам токенізації

AWS презентує платформу AgentCore для трансформації корпоративних AI-агентів

MIT розкриває приховану потужність токенізаторів нейронних мереж

Related Articles

NVIDIA трансформує маркетинг за допомогою OpenUSD та агентних AI-інструментів

ШІ DeepMind розшифровує прихований регуляторний код ДНК

NetClass відкриває хаб у Сінгапурі для прискорення глобальної експансії в сфері AI-освіти

Супутник на основі ШІ виявляє дрібні лісові пожежі, невидимі для інших систем

Прорив H-Net у сфері ШІ: кінець жорстким правилам токенізації

Latest News

Трамп презентує амбітну стратегію зі штучного інтелекту для зміцнення глобального лідерства США

NVIDIA трансформує маркетинг за допомогою OpenUSD та агентних AI-інструментів

Google розширює сімейство Gemini 2.5 новими моделями та інструментами для розробників

Супутникова система Google на основі ШІ вперше показала знімки лісових пожеж

Трамп презентував AI-хаб у Пенсільванії на $92 млрд для трансформації штату

ШІ DeepMind розшифровує прихований регуляторний код ДНК

NetClass відкриває хаб у Сінгапурі для прискорення глобальної експансії в сфері AI-освіти

Супутник на основі ШІ виявляє дрібні лісові пожежі, невидимі для інших систем

Прорив H-Net у сфері ШІ: кінець жорстким правилам токенізації

AWS презентує платформу AgentCore для трансформації корпоративних AI-агентів