menu
close

MIT、ニューラルネットワークトークナイザーの隠れた力を解明

MITの研究者らは、ニューラルネットワークのトークナイザーが従来のジェネレーターを使わずに画像生成や編集を行えることを発見し、2025年7月22日に発表した。この画期的な研究はICML 2025で発表され、1次元トークナイザーの個々のトークンを操作することで、画像に視覚的に識別可能な変化をもたらし、大幅に計算コストを削減した効率的な画像操作を実現できることを示した。この手法は、CLIPによって誘導されるトークナイザー・デコーダーシステムを用い、テキストに基づく編集や生成を可能にしている。
MIT、ニューラルネットワークトークナイザーの隠れた力を解明

MITの研究チームは、これまでエンコーダーとしてのみ機能すると考えられていたニューラルネットワークの構成要素が、実際には高度な画像生成や編集を単独で実行できることを明らかにした。

この研究は、2025年にバンクーバーで開催された国際機械学習会議(ICML 2025)で発表された。1次元(1D)トークナイザー――視覚情報を離散的なトークン列に圧縮するニューラルネットワーク――が、従来の画像ジェネレーターを必要としない未開拓の生成能力を持つことを示している。

MIT情報・意思決定システム研究所(LIDS)の大学院生Lukas Lao Beyer氏を中心とするチームは、圧縮表現内の個々のトークンを操作することで、生成される画像に特定かつ予測可能な変化が生じることを発見した。「トークンを操作することで視覚的に識別可能な変化が生じるという結果は、これまで誰も見たことがありませんでした」とLao Beyer氏は語る。

研究チームは、単一トークンの置換によって画像の解像度を低から高へ変えたり、背景のぼかし具合を調整したり、明るさを変更したり、画像内の物体のポーズまで変化させたりできることを確認した。この発見により、トークンの直接操作による効率的な画像編集の新たな可能性が開かれた。

さらに重要なのは、MITチームが1Dトークナイザーとデコーダー(デトークナイザーとも呼ばれる)、そして市販のニューラルネットワークCLIPを組み合わせた新しい画像生成手法を実証したことだ。このシステムは、例えばレッサーパンダをトラに変換したり、ランダムなトークン値から全く新しい画像を生成したりするなど、画像タイプの変換やテキスト誘導による生成が可能だ。

このアプローチは、2024年にミュンヘン工科大学とByteDanceの研究者が開発した、256×256ピクセルの画像を従来の256トークンではなくわずか32トークンに圧縮する手法に基づいている。MITの革新は、これらの高圧縮表現が創造的な応用に活用できる豊かな意味情報を内包していることを示した。

研究チームには、MITコンピュータ科学・人工知能研究所(CSAIL)のTianhong Li氏、Facebook AI ResearchのXinlei Chen氏、MITのSertac Karaman教授、Kaiming He准教授も参加している。彼らの成果は、今後数十年で数十億ドル規模に成長すると予測されるAI画像生成分野において、より計算効率の高い未来を示唆している。

Source: Techxplore

Latest News