MIT Odkrywa Ukrytą Moc Tokenizerów Sieci Neuronowych

Naukowcy z MIT odkryli, że tokenizery sieci neuronowych mogą generować i edytować obrazy bez użycia tradycyjnych generatorów, o czym poinformowano 22 lipca 2025 roku. Przełomowe badania, zaprezentowane na ICML 2025, pokazują, że manipulacja pojedynczymi tokenami w jednowymiarowych tokenizerach pozwala uzyskać wizualnie rozpoznawalne zmiany w obrazach, umożliwiając wydajną edycję przy znacząco niższych kosztach obliczeniowych. Podejście to wykorzystuje system tokenizer-dekoder sterowany przez CLIP, aby osiągnąć edycję i generowanie obrazów na podstawie tekstu.

Zespół naukowców z MIT ujawnił, że komponenty sieci neuronowych, dotychczas uznawane jedynie za enkodery, mogą samodzielnie realizować zaawansowane zadania generowania i manipulacji obrazami.

Badania, zaprezentowane podczas International Conference on Machine Learning (ICML 2025) w Vancouver, pokazują, że jednowymiarowe (1D) tokenizery — sieci neuronowe kompresujące informacje wizualne do sekwencji dyskretnych tokenów — posiadają niewykorzystane zdolności generatywne, eliminując potrzebę stosowania tradycyjnych generatorów obrazów.

Zespół, kierowany przez doktoranta Lukasa Lao Beyera z Laboratorium Systemów Informacyjnych i Decyzyjnych MIT (LIDS), odkrył, że manipulacja pojedynczymi tokenami w tych skompresowanych reprezentacjach prowadzi do konkretnych, przewidywalnych zmian w generowanych obrazach. „To był bezprecedensowy wynik — nikt wcześniej nie zaobserwował wizualnie rozpoznawalnych zmian wynikających z manipulacji tokenami” — wyjaśnia Lao Beyer.

Naukowcy ustalili, że zamiana pojedynczych tokenów może przekształcić jakość obrazu z niskiej na wysoką rozdzielczość, regulować rozmycie tła, zmieniać poziom jasności, a nawet modyfikować pozycję obiektów na obrazie. To odkrycie otwiera nowe możliwości wydajnej edycji obrazów poprzez bezpośrednią manipulację tokenami.

Co ważniejsze, zespół MIT zaprezentował nowatorskie podejście do generowania obrazów, które wymaga jedynie 1D tokenizera i dekodera (zwanego także detokenizerem), sterowanych przez ogólnodostępną sieć neuronową CLIP. System ten potrafi przekształcać jeden typ obrazu w inny — na przykład zamieniać pandę rudą w tygrysa — lub generować zupełnie nowe obrazy z losowych wartości tokenów, które są iteracyjnie optymalizowane.

Metoda ta bazuje na przełomie z 2024 roku, osiągniętym przez naukowców z Technische Universität München i ByteDance, którzy opracowali sposób kompresji obrazów o rozdzielczości 256×256 pikseli do zaledwie 32 tokenów, podczas gdy wcześniejsze tokenizery wykorzystywały zwykle 256 tokenów. Innowacja MIT pokazuje, że te silnie skompresowane reprezentacje zawierają bogate informacje semantyczne, które można wykorzystać w kreatywnych zastosowaniach.

W skład zespołu badawczego wchodzą także Tianhong Li z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), Xinlei Chen z Facebook AI Research, profesor MIT Sertac Karaman oraz profesor nadzwyczajny MIT Kaiming He. Ich odkrycia sugerują, że przyszłość generowania obrazów przez AI może być znacznie bardziej wydajna obliczeniowo, a branża ta do końca dekady osiągnie wartość miliarda dolarów.

MIT Odkrywa Ukrytą Moc Tokenizerów Sieci Neuronowych

Latest News

Trump przedstawia odważną strategię AI dla utrzymania globalnej dominacji USA

NVIDIA rewolucjonizuje marketing dzięki OpenUSD i agentycznym narzędziom AI

Google rozszerza rodzinę Gemini 2.5 o nowe modele i narzędzia dla deweloperów

Satelitarny system AI Google ujawnia pierwsze zdjęcia pożarów lasów

Trump prezentuje centrum AI warte 92 miliardy dolarów, które ma przekształcić Pensylwanię

Sztuczna inteligencja DeepMind rozszyfrowuje ukryty kod regulacyjny DNA

NetClass otwiera centrum w Singapurze, by przyspieszyć globalną ekspansję edukacji AI

Satelita wspierany przez AI wykrywa niewielkie pożary niewidoczne dla innych systemów

Przełom H-Net AI: Koniec sztywnych reguł tokenizacji

AWS prezentuje platformę AgentCore, która zrewolucjonizuje agentów AI w przedsiębiorstwach

MIT Odkrywa Ukrytą Moc Tokenizerów Sieci Neuronowych

Related Articles

NVIDIA rewolucjonizuje marketing dzięki OpenUSD i agentycznym narzędziom AI

Sztuczna inteligencja DeepMind rozszyfrowuje ukryty kod regulacyjny DNA

NetClass otwiera centrum w Singapurze, by przyspieszyć globalną ekspansję edukacji AI

Satelita wspierany przez AI wykrywa niewielkie pożary niewidoczne dla innych systemów

Przełom H-Net AI: Koniec sztywnych reguł tokenizacji

Latest News

Trump przedstawia odważną strategię AI dla utrzymania globalnej dominacji USA

NVIDIA rewolucjonizuje marketing dzięki OpenUSD i agentycznym narzędziom AI

Google rozszerza rodzinę Gemini 2.5 o nowe modele i narzędzia dla deweloperów

Satelitarny system AI Google ujawnia pierwsze zdjęcia pożarów lasów

Trump prezentuje centrum AI warte 92 miliardy dolarów, które ma przekształcić Pensylwanię

Sztuczna inteligencja DeepMind rozszyfrowuje ukryty kod regulacyjny DNA

NetClass otwiera centrum w Singapurze, by przyspieszyć globalną ekspansję edukacji AI

Satelita wspierany przez AI wykrywa niewielkie pożary niewidoczne dla innych systemów

Przełom H-Net AI: Koniec sztywnych reguł tokenizacji

AWS prezentuje platformę AgentCore, która zrewolucjonizuje agentów AI w przedsiębiorstwach