menu
close

MIT Odkrywa Ukrytą Moc Tokenizerów Sieci Neuronowych

Naukowcy z MIT odkryli, że tokenizery sieci neuronowych mogą generować i edytować obrazy bez użycia tradycyjnych generatorów, o czym poinformowano 22 lipca 2025 roku. Przełomowe badania, zaprezentowane na ICML 2025, pokazują, że manipulacja pojedynczymi tokenami w jednowymiarowych tokenizerach pozwala uzyskać wizualnie rozpoznawalne zmiany w obrazach, umożliwiając wydajną edycję przy znacząco niższych kosztach obliczeniowych. Podejście to wykorzystuje system tokenizer-dekoder sterowany przez CLIP, aby osiągnąć edycję i generowanie obrazów na podstawie tekstu.
MIT Odkrywa Ukrytą Moc Tokenizerów Sieci Neuronowych

Zespół naukowców z MIT ujawnił, że komponenty sieci neuronowych, dotychczas uznawane jedynie za enkodery, mogą samodzielnie realizować zaawansowane zadania generowania i manipulacji obrazami.

Badania, zaprezentowane podczas International Conference on Machine Learning (ICML 2025) w Vancouver, pokazują, że jednowymiarowe (1D) tokenizery — sieci neuronowe kompresujące informacje wizualne do sekwencji dyskretnych tokenów — posiadają niewykorzystane zdolności generatywne, eliminując potrzebę stosowania tradycyjnych generatorów obrazów.

Zespół, kierowany przez doktoranta Lukasa Lao Beyera z Laboratorium Systemów Informacyjnych i Decyzyjnych MIT (LIDS), odkrył, że manipulacja pojedynczymi tokenami w tych skompresowanych reprezentacjach prowadzi do konkretnych, przewidywalnych zmian w generowanych obrazach. „To był bezprecedensowy wynik — nikt wcześniej nie zaobserwował wizualnie rozpoznawalnych zmian wynikających z manipulacji tokenami” — wyjaśnia Lao Beyer.

Naukowcy ustalili, że zamiana pojedynczych tokenów może przekształcić jakość obrazu z niskiej na wysoką rozdzielczość, regulować rozmycie tła, zmieniać poziom jasności, a nawet modyfikować pozycję obiektów na obrazie. To odkrycie otwiera nowe możliwości wydajnej edycji obrazów poprzez bezpośrednią manipulację tokenami.

Co ważniejsze, zespół MIT zaprezentował nowatorskie podejście do generowania obrazów, które wymaga jedynie 1D tokenizera i dekodera (zwanego także detokenizerem), sterowanych przez ogólnodostępną sieć neuronową CLIP. System ten potrafi przekształcać jeden typ obrazu w inny — na przykład zamieniać pandę rudą w tygrysa — lub generować zupełnie nowe obrazy z losowych wartości tokenów, które są iteracyjnie optymalizowane.

Metoda ta bazuje na przełomie z 2024 roku, osiągniętym przez naukowców z Technische Universität München i ByteDance, którzy opracowali sposób kompresji obrazów o rozdzielczości 256×256 pikseli do zaledwie 32 tokenów, podczas gdy wcześniejsze tokenizery wykorzystywały zwykle 256 tokenów. Innowacja MIT pokazuje, że te silnie skompresowane reprezentacje zawierają bogate informacje semantyczne, które można wykorzystać w kreatywnych zastosowaniach.

W skład zespołu badawczego wchodzą także Tianhong Li z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen z Facebook AI Research, profesor MIT Sertac Karaman oraz profesor nadzwyczajny MIT Kaiming He. Ich odkrycia sugerują, że przyszłość generowania obrazów przez AI może być znacznie bardziej wydajna obliczeniowo, a branża ta do końca dekady osiągnie wartość miliarda dolarów.

Source: Techxplore

Latest News