麻省理工学院(MIT)的一支研究团队揭示,神经网络中此前被认为仅用于编码的组件,实际上能够独立完成复杂的图像生成和编辑任务。
这项研究于2025年在温哥华举办的国际机器学习大会(ICML 2025)上发布,表明一维(1D)分词器——即将视觉信息压缩为离散token序列的神经网络——具备未被发掘的生成能力,从而无需传统的图像生成器。
该团队由MIT信息与决策系统实验室(LIDS)的研究生Lukas Lao Beyer带领,发现通过操控这些压缩表示中的单个token,可以在生成的图像中产生特定且可预测的变化。Lao Beyer表示:“这是前所未有的结果,此前从未有人观察到通过操控token能带来可视化的变化。”
研究人员发现,仅替换单个token即可实现图像质量从低分辨率到高分辨率的转变、调整背景模糊度、改变亮度,甚至改变图像中物体的姿态。这一发现为通过直接操控token实现高效图像编辑开辟了新可能。
更重要的是,MIT团队展示了一种全新的图像生成方法,仅需一维分词器和解码器(也称为去分词器),并由现成的神经网络CLIP引导。该系统能够实现图像类型间的转换——例如将小熊猫变为老虎——或通过对随机token值进行迭代优化,生成全新的图像。
这一方法建立在2024年慕尼黑工业大学与字节跳动研究人员的突破基础上,后者曾提出将256×256像素的图像压缩为仅32个token,而此前的分词器通常需用256个token。MIT的创新表明,这些高度压缩的表示中蕴含着丰富的语义信息,可被用于创造性应用。
研究团队成员还包括MIT计算机科学与人工智能实验室(CSAIL)的李天宏、Facebook AI Research的陈鑫磊、MIT教授Sertac Karaman以及MIT副教授何恺明。他们的发现预示着AI图像生成将迎来更高效的计算未来,而这一领域有望在本十年末成为数十亿美元级别的产业。