MIT 연구팀이 기존에는 단순 인코더 역할로만 여겨졌던 신경망 구성 요소가, 실제로는 독립적으로 고도화된 이미지 생성 및 조작 작업을 수행할 수 있음을 밝혀냈다.
이번 연구는 2025년 밴쿠버에서 열린 국제기계학습학회(ICML 2025)에서 발표됐다. 연구진은 1차원(1D) 토크나이저—시각 정보를 이산 토큰 시퀀스로 압축하는 신경망—가 기존 이미지 생성기를 대체할 수 있는 미개척 생성 능력을 지니고 있음을 입증했다.
MIT 정보 및 의사결정 시스템 연구소(LIDS) 소속 대학원생 루카스 라오 베이어(Lukas Lao Beyer)가 이끄는 연구팀은, 이 압축 표현 내 개별 토큰을 조작하면 결과 이미지에 구체적이고 예측 가능한 변화가 나타난다는 사실을 발견했다. 라오 베이어는 “토큰을 조작해 시각적으로 식별 가능한 변화가 나타난 것은 전례 없는 결과”라고 설명했다.
연구진은 단일 토큰만 교체해도 이미지 해상도를 저해상도에서 고해상도로 바꾸거나, 배경 흐림 정도·밝기·사물의 포즈까지 조절할 수 있음을 확인했다. 이 발견은 직접적인 토큰 조작을 통한 효율적인 이미지 편집의 새로운 가능성을 제시한다.
더 나아가 MIT 연구팀은 1D 토크나이저와 디코더(디토크나이저)만으로, 범용 신경망 CLIP의 안내를 받아 이미지 생성이 가능한 새로운 방식을 선보였다. 이 시스템은 예를 들어 붉은 팬더 이미지를 호랑이로 변환하거나, 무작위 토큰 값을 반복적으로 최적화해 완전히 새로운 이미지를 생성할 수 있다.
이 접근법은 2024년 뮌헨공대와 바이트댄스 연구진이 256×256 픽셀 이미지를 단 32개 토큰으로 압축하는 기술(기존 토크나이저는 256개 토큰 사용)을 개발한 성과를 기반으로 한다. MIT의 혁신은 이렇게 고도로 압축된 표현이 풍부한 의미 정보를 담고 있음을 보여주며, 창의적 활용 가능성을 넓혔다.
연구진에는 MIT 컴퓨터과학 및 인공지능연구소(CSAIL)의 티안홍 리(Tianhong Li), 페이스북 AI 리서치의 신레이 첸(Xinlei Chen), MIT 세르탁 카라만(Sertac Karaman) 교수, MIT 카이밍 허(Kaiming He) 부교수가 참여했다. 이들의 연구는 AI 이미지 생성의 미래가 더욱 연산 효율적으로 발전할 수 있음을 시사하며, 해당 분야는 2030년대 말까지 수십억 달러 규모의 산업으로 성장할 전망이다.