menu
close

MIT解锁神经网络分词器的隐藏能力

麻省理工学院(MIT)研究人员于2025年7月22日宣布,神经网络分词器能够在无需传统生成器的情况下实现图像生成与编辑。这项突破性研究在ICML 2025会议上发布,展示了通过操控一维分词器中的单个token,可以在图像中产生可视化的变化,从而实现高效的图像操作并大幅降低计算成本。该方法采用由CLIP引导的分词器-解码器系统,实现了文本引导的图像编辑与生成。
MIT解锁神经网络分词器的隐藏能力

麻省理工学院(MIT)的一支研究团队揭示,神经网络中此前被认为仅用于编码的组件,实际上能够独立完成复杂的图像生成和编辑任务。

这项研究于2025年在温哥华举办的国际机器学习大会(ICML 2025)上发布,表明一维(1D)分词器——即将视觉信息压缩为离散token序列的神经网络——具备未被发掘的生成能力,从而无需传统的图像生成器。

该团队由MIT信息与决策系统实验室(LIDS)的研究生Lukas Lao Beyer带领,发现通过操控这些压缩表示中的单个token,可以在生成的图像中产生特定且可预测的变化。Lao Beyer表示:“这是前所未有的结果,此前从未有人观察到通过操控token能带来可视化的变化。”

研究人员发现,仅替换单个token即可实现图像质量从低分辨率到高分辨率的转变、调整背景模糊度、改变亮度,甚至改变图像中物体的姿态。这一发现为通过直接操控token实现高效图像编辑开辟了新可能。

更重要的是,MIT团队展示了一种全新的图像生成方法,仅需一维分词器和解码器(也称为去分词器),并由现成的神经网络CLIP引导。该系统能够实现图像类型间的转换——例如将小熊猫变为老虎——或通过对随机token值进行迭代优化,生成全新的图像。

这一方法建立在2024年慕尼黑工业大学与字节跳动研究人员的突破基础上,后者曾提出将256×256像素的图像压缩为仅32个token,而此前的分词器通常需用256个token。MIT的创新表明,这些高度压缩的表示中蕴含着丰富的语义信息,可被用于创造性应用。

研究团队成员还包括MIT计算机科学与人工智能实验室(CSAIL)的李天宏、Facebook AI Research的陈鑫磊、MIT教授Sertac Karaman以及MIT副教授何恺明。他们的发现预示着AI图像生成将迎来更高效的计算未来,而这一领域有望在本十年末成为数十亿美元级别的产业。

Source: Techxplore

Latest News