Команда дослідників Массачусетського технологічного інституту (MIT) виявила, що компоненти нейронних мереж, які раніше вважалися лише енкодерами, насправді здатні самостійно виконувати складні завдання з генерації та маніпуляції зображеннями.
Дослідження, представлене на Міжнародній конференції з машинного навчання (ICML 2025) у Ванкувері, демонструє, що одновимірні (1D) токенізатори — нейронні мережі, які стискають візуальну інформацію в послідовності дискретних токенів — мають невикористаний генеративний потенціал, що дозволяє обходитися без традиційних генераторів зображень.
Під керівництвом аспіранта Лукаса Лао Бейєра з Лабораторії інформаційних та рішеньних систем MIT (LIDS), команда з'ясувала, що маніпуляції окремими токенами в цих стиснених представленнях призводять до конкретних, передбачуваних змін у результатних зображеннях. «Це був безпрецедентний результат, адже раніше ніхто не спостерігав візуально впізнаваних змін від маніпуляцій токенами», — пояснив Лао Бейєр.
Дослідники встановили, що заміна окремих токенів може змінювати якість зображення від низької до високої роздільної здатності, регулювати розмитість фону, змінювати рівень яскравості або навіть змінювати позу об'єктів на зображенні. Це відкриття створює нові можливості для ефективного редагування зображень шляхом прямої маніпуляції токенами.
Ще важливішим є те, що команда MIT продемонструвала новий підхід до генерації зображень, який вимагає лише 1D токенізатора та декодера (також званого детокенізатором), під керуванням готової нейронної мережі CLIP. Ця система здатна перетворювати один тип зображення на інший — наприклад, змінювати червону панду на тигра — або генерувати абсолютно нові зображення з випадкових токенів, які оптимізуються ітеративно.
Підхід базується на прориві 2024 року від дослідників Технічного університету Мюнхена та ByteDance, які розробили метод стискання зображень розміром 256×256 пікселів усього до 32 токенів, порівняно з 256 токенами, які зазвичай використовувалися попередніми токенізаторами. Інновація MIT демонструє, що ці високостиснені представлення містять багату семантичну інформацію, яку можна використовувати для творчих застосувань.
До складу дослідницької групи входять Тяньхонг Лі з Лабораторії комп'ютерних наук та штучного інтелекту MIT (CSAIL), Сінлей Чен з Facebook AI Research, професор MIT Сертач Караман і доцент MIT Каймін Хе. Їхні результати вказують на більш обчислювально ефективне майбутнє генерації зображень штучним інтелектом, яка, за прогнозами, стане індустрією з мільярдними оборотами до кінця цього десятиліття.