menu
close

MIT раскрывает скрытый потенциал токенизаторов нейросетей

Исследователи MIT обнаружили, что токенизаторы нейросетей способны генерировать и редактировать изображения без традиционных генераторов, как было объявлено 22 июля 2025 года. Прорывное исследование, представленное на ICML 2025, демонстрирует, что манипуляции отдельными токенами в одномерных токенизаторах приводят к визуально различимым изменениям изображений, что позволяет эффективно редактировать изображения при значительно меньших вычислительных затратах. Этот подход использует систему токенизатор-декодер под управлением CLIP для реализации текстового управления редактированием и генерацией.
MIT раскрывает скрытый потенциал токенизаторов нейросетей

Команда исследователей Массачусетского технологического института (MIT) показала, что компоненты нейросетей, ранее считавшиеся исключительно энкодерами, на самом деле способны самостоятельно выполнять сложные задачи по генерации и редактированию изображений.

Исследование, представленное на Международной конференции по машинному обучению (ICML 2025) в Ванкувере, демонстрирует, что одномерные (1D) токенизаторы — нейросети, сжимающие визуальную информацию в последовательности дискретных токенов — обладают неиспользованным генеративным потенциалом, который устраняет необходимость в традиционных генераторах изображений.

Под руководством аспиранта Лукаса Лао Бейера из Лаборатории информационных и управляющих систем MIT (LIDS) команда обнаружила, что манипуляции отдельными токенами в этих сжатых представлениях вызывают конкретные и предсказуемые изменения в результирующих изображениях. «Это был беспрецедентный результат, поскольку ранее никто не наблюдал визуально различимых изменений при манипуляциях токенами», — пояснил Лао Бейер.

Исследователи выяснили, что замена одного токена может преобразовать качество изображения с низкого на высокое разрешение, изменить степень размытости фона, уровень яркости или даже позу объектов на изображении. Это открытие создает новые возможности для эффективного редактирования изображений посредством прямой манипуляции токенами.

Еще более значимо то, что команда MIT продемонстрировала новый подход к генерации изображений, требующий только одномерного токенизатора и декодера (также называемого детокенизатором), управляемых готовой нейросетью CLIP. Эта система способна преобразовывать изображения одного типа в другой — например, превращать красную панду в тигра — или генерировать совершенно новые изображения из случайных токенов, которые оптимизируются итеративно.

Данный подход основан на прорыве 2024 года, достигнутом исследователями Технического университета Мюнхена и ByteDance, которые разработали метод сжатия изображений размером 256×256 пикселей всего в 32 токена вместо 256, используемых предыдущими токенизаторами. Инновация MIT демонстрирует, что такие высоко сжатые представления содержат богатую семантическую информацию, которую можно использовать для творческих задач.

В состав исследовательской группы вошли Тяньхун Ли из Лаборатории информатики и искусственного интеллекта MIT (CSAIL), Синлей Чен из Facebook AI Research, профессор MIT Сертач Караман и доцент MIT Кайминг Хэ. Их результаты указывают на более вычислительно эффективное будущее генерации изображений с помощью ИИ, которая, как ожидается, станет миллиардной индустрией к концу этого десятилетия.

Source: Techxplore

Latest News