Екип от изследователи в MIT разкри, че компоненти на невронните мрежи, които досега се смятаха само за енкодери, всъщност могат самостоятелно да извършват сложни задачи по генериране и манипулиране на изображения.
Изследването, представено на Международната конференция по машинно обучение (ICML 2025) във Ванкувър, показва, че едномерните (1D) токенизатори — невронни мрежи, които компресират визуалната информация в последователности от дискретни токени — притежават неизползван генеративен потенциал, който елиминира нуждата от традиционни генератори на изображения.
Водени от докторанта Лукас Лао Байер от Лабораторията по информационни и управленски системи (LIDS) към MIT, екипът открива, че манипулирането на отделни токени в тези компресирани представяния води до специфични, предвидими промени в получените изображения. „Това е напълно нов резултат, тъй като досега никой не беше наблюдавал визуално разпознаваеми промени при манипулиране на токени“, обяснява Лао Байер.
Изследователите установяват, че замяната на единични токени може да преобрази качеството на изображението от ниска към висока резолюция, да регулира замъгляването на фона, да променя нивата на яркост или дори да изменя позата на обекти в изображението. Това откритие отваря нови възможности за ефективна обработка на изображения чрез директна манипулация на токени.
Още по-значимо е, че екипът на MIT демонстрира нов подход за генериране на изображения, който изисква само 1D токенизатор и декодер (наричан още детокенизатор), насочвани от готова невронна мрежа CLIP. Тази система може да преобразува един тип изображение в друг — например да превърне червена панда в тигър — или да генерира изцяло нови изображения от случайни токенни стойности, които се оптимизират итеративно.
Подходът стъпва върху пробив от 2024 г. на изследователи от Техническия университет в Мюнхен и ByteDance, които разработват метод за компресиране на изображения с размер 256×256 пиксела само в 32 токена, в сравнение с 256 токена, използвани от предишни токенизатори. Иновацията на MIT показва, че тези силно компресирани представяния съдържат богата семантична информация, която може да се използва за креативни приложения.
В екипа участват още Тианхонг Ли от Лабораторията по компютърни науки и изкуствен интелект (CSAIL) към MIT, Синлей Чен от Facebook AI Research, професор Сертач Караман и доц. Кайминг Хъ от MIT. Техните открития подсказват за по-ефективно изчислително бъдеще на AI-генерирането на изображения — индустрия, която се очаква да достигне милиарден оборот до края на това десетилетие.