Команда исследователей Массачусетского технологического института (MIT) показала, что компоненты нейросетей, ранее считавшиеся исключительно энкодерами, на самом деле способны самостоятельно выполнять сложные задачи по генерации и редактированию изображений.
Исследование, представленное на Международной конференции по машинному обучению (ICML 2025) в Ванкувере, демонстрирует, что одномерные (1D) токенизаторы — нейросети, сжимающие визуальную информацию в последовательности дискретных токенов — обладают неиспользованным генеративным потенциалом, который устраняет необходимость в традиционных генераторах изображений.
Под руководством аспиранта Лукаса Лао Бейера из Лаборатории информационных и управляющих систем MIT (LIDS) команда обнаружила, что манипуляции отдельными токенами в этих сжатых представлениях вызывают конкретные и предсказуемые изменения в результирующих изображениях. «Это был беспрецедентный результат, поскольку ранее никто не наблюдал визуально различимых изменений при манипуляциях токенами», — пояснил Лао Бейер.
Исследователи выяснили, что замена одного токена может преобразовать качество изображения с низкого на высокое разрешение, изменить степень размытости фона, уровень яркости или даже позу объектов на изображении. Это открытие создает новые возможности для эффективного редактирования изображений посредством прямой манипуляции токенами.
Еще более значимо то, что команда MIT продемонстрировала новый подход к генерации изображений, требующий только одномерного токенизатора и декодера (также называемого детокенизатором), управляемых готовой нейросетью CLIP. Эта система способна преобразовывать изображения одного типа в другой — например, превращать красную панду в тигра — или генерировать совершенно новые изображения из случайных токенов, которые оптимизируются итеративно.
Данный подход основан на прорыве 2024 года, достигнутом исследователями Технического университета Мюнхена и ByteDance, которые разработали метод сжатия изображений размером 256×256 пикселей всего в 32 токена вместо 256, используемых предыдущими токенизаторами. Инновация MIT демонстрирует, что такие высоко сжатые представления содержат богатую семантическую информацию, которую можно использовать для творческих задач.
В состав исследовательской группы вошли Тяньхун Ли из Лаборатории информатики и искусственного интеллекта MIT (CSAIL), Синлей Чен из Facebook AI Research, профессор MIT Сертач Караман и доцент MIT Кайминг Хэ. Их результаты указывают на более вычислительно эффективное будущее генерации изображений с помощью ИИ, которая, как ожидается, станет миллиардной индустрией к концу этого десятилетия.