menu
close

MIT odhaluje skrytý potenciál tokenizérů neuronových sítí

Výzkumníci z MIT objevili, že tokenizéry neuronových sítí dokážou generovat a upravovat obrázky bez tradičních generátorů, jak bylo oznámeno 22. července 2025. Průlomový výzkum, představený na ICML 2025, ukazuje, že manipulace s jednotlivými tokeny v jednorozměrných tokenizérech vede k vizuálně rozpoznatelným změnám v obrázcích, což umožňuje efektivní úpravy s výrazně nižšími výpočetními náklady. Tento přístup využívá systém tokenizér-dekodér řízený modelem CLIP pro úpravy a generování obrázků na základě textových instrukcí.
MIT odhaluje skrytý potenciál tokenizérů neuronových sítí

Tým výzkumníků z MIT odhalil, že komponenty neuronových sítí, které byly dosud považovány pouze za enkodéry, mohou samostatně provádět sofistikované úlohy generování a manipulace s obrázky.

Výzkum, prezentovaný na Mezinárodní konferenci o strojovém učení (ICML 2025) ve Vancouveru, ukazuje, že jednorozměrné (1D) tokenizéry—neuronové sítě, které komprimují vizuální informace do sekvencí diskrétních tokenů—disponují dosud nevyužitými generativními schopnostmi, které eliminují potřebu tradičních generátorů obrázků.

Pod vedením doktoranda Lukase Lao Beyera z Laboratoře informačních a rozhodovacích systémů (LIDS) na MIT tým zjistil, že manipulace s jednotlivými tokeny v těchto komprimovaných reprezentacích vede ke konkrétním, předvídatelným změnám ve výsledných obrázcích. „Toto je zcela nový výsledek, protože dosud nikdo nepozoroval vizuálně rozpoznatelné změny při manipulaci s tokeny,“ vysvětlil Lao Beyer.

Výzkumníci zjistili, že nahrazení jediného tokenu může změnit kvalitu obrázku z nízkého na vysoké rozlišení, upravit rozmazání pozadí, změnit úroveň jasu nebo dokonce pozici objektů na obrázku. Tento objev otevírá nové možnosti efektivní editace obrázků přímou manipulací s tokeny.

Ještě významnější je, že tým z MIT předvedl nový přístup ke generování obrázků, který vyžaduje pouze 1D tokenizér a dekodér (tzv. detokenizér), řízený volně dostupnou neuronovou sítí CLIP. Tento systém dokáže převádět jeden typ obrázku na jiný—například proměnit pandu červenou na tygra—nebo generovat zcela nové obrázky z náhodných hodnot tokenů, které jsou iterativně optimalizovány.

Tento přístup navazuje na průlomový objev z roku 2024 od výzkumníků z Technické univerzity v Mnichově a společnosti ByteDance, kteří vyvinuli metodu komprese obrázků o rozlišení 256×256 pixelů do pouhých 32 tokenů, zatímco předchozí tokenizéry běžně používaly 256 tokenů. Inovace MIT ukazuje, že i takto vysoce komprimované reprezentace obsahují bohaté sémantické informace, které lze využít pro kreativní aplikace.

Výzkumný tým tvoří také Tianhong Li z Laboratoře pro informatiku a umělou inteligenci (CSAIL) na MIT, Xinlei Chen z Facebook AI Research, profesor Sertac Karaman a docent Kaiming He z MIT. Jejich zjištění naznačují, že budoucnost generování obrázků pomocí AI bude výrazně efektivnější z hlediska výpočetních nákladů—a tento obor by se do konce desetiletí mohl stát miliardovým průmyslem.

Source: Techxplore

Latest News