Zespół naukowców z MIT ujawnił, że komponenty sieci neuronowych, dotychczas uznawane jedynie za enkodery, mogą samodzielnie realizować zaawansowane zadania generowania i manipulacji obrazami.
Badania, zaprezentowane podczas International Conference on Machine Learning (ICML 2025) w Vancouver, pokazują, że jednowymiarowe (1D) tokenizery — sieci neuronowe kompresujące informacje wizualne do sekwencji dyskretnych tokenów — posiadają niewykorzystane zdolności generatywne, eliminując potrzebę stosowania tradycyjnych generatorów obrazów.
Zespół, kierowany przez doktoranta Lukasa Lao Beyera z Laboratorium Systemów Informacyjnych i Decyzyjnych MIT (LIDS), odkrył, że manipulacja pojedynczymi tokenami w tych skompresowanych reprezentacjach prowadzi do konkretnych, przewidywalnych zmian w generowanych obrazach. „To był bezprecedensowy wynik — nikt wcześniej nie zaobserwował wizualnie rozpoznawalnych zmian wynikających z manipulacji tokenami” — wyjaśnia Lao Beyer.
Naukowcy ustalili, że zamiana pojedynczych tokenów może przekształcić jakość obrazu z niskiej na wysoką rozdzielczość, regulować rozmycie tła, zmieniać poziom jasności, a nawet modyfikować pozycję obiektów na obrazie. To odkrycie otwiera nowe możliwości wydajnej edycji obrazów poprzez bezpośrednią manipulację tokenami.
Co ważniejsze, zespół MIT zaprezentował nowatorskie podejście do generowania obrazów, które wymaga jedynie 1D tokenizera i dekodera (zwanego także detokenizerem), sterowanych przez ogólnodostępną sieć neuronową CLIP. System ten potrafi przekształcać jeden typ obrazu w inny — na przykład zamieniać pandę rudą w tygrysa — lub generować zupełnie nowe obrazy z losowych wartości tokenów, które są iteracyjnie optymalizowane.
Metoda ta bazuje na przełomie z 2024 roku, osiągniętym przez naukowców z Technische Universität München i ByteDance, którzy opracowali sposób kompresji obrazów o rozdzielczości 256×256 pikseli do zaledwie 32 tokenów, podczas gdy wcześniejsze tokenizery wykorzystywały zwykle 256 tokenów. Innowacja MIT pokazuje, że te silnie skompresowane reprezentacje zawierają bogate informacje semantyczne, które można wykorzystać w kreatywnych zastosowaniach.
W skład zespołu badawczego wchodzą także Tianhong Li z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen z Facebook AI Research, profesor MIT Sertac Karaman oraz profesor nadzwyczajny MIT Kaiming He. Ich odkrycia sugerują, że przyszłość generowania obrazów przez AI może być znacznie bardziej wydajna obliczeniowo, a branża ta do końca dekady osiągnie wartość miliarda dolarów.