MIT odhaluje skrytý potenciál tokenizérů neuronových sítí

Výzkumníci z MIT objevili, že tokenizéry neuronových sítí dokážou generovat a upravovat obrázky bez tradičních generátorů, jak bylo oznámeno 22. července 2025. Průlomový výzkum, představený na ICML 2025, ukazuje, že manipulace s jednotlivými tokeny v jednorozměrných tokenizérech vede k vizuálně rozpoznatelným změnám v obrázcích, což umožňuje efektivní úpravy s výrazně nižšími výpočetními náklady. Tento přístup využívá systém tokenizér-dekodér řízený modelem CLIP pro úpravy a generování obrázků na základě textových instrukcí.

Tým výzkumníků z MIT odhalil, že komponenty neuronových sítí, které byly dosud považovány pouze za enkodéry, mohou samostatně provádět sofistikované úlohy generování a manipulace s obrázky.

Výzkum, prezentovaný na Mezinárodní konferenci o strojovém učení (ICML 2025) ve Vancouveru, ukazuje, že jednorozměrné (1D) tokenizéry—neuronové sítě, které komprimují vizuální informace do sekvencí diskrétních tokenů—disponují dosud nevyužitými generativními schopnostmi, které eliminují potřebu tradičních generátorů obrázků.

Pod vedením doktoranda Lukase Lao Beyera z Laboratoře informačních a rozhodovacích systémů (LIDS) na MIT tým zjistil, že manipulace s jednotlivými tokeny v těchto komprimovaných reprezentacích vede ke konkrétním, předvídatelným změnám ve výsledných obrázcích. „Toto je zcela nový výsledek, protože dosud nikdo nepozoroval vizuálně rozpoznatelné změny při manipulaci s tokeny,“ vysvětlil Lao Beyer.

Výzkumníci zjistili, že nahrazení jediného tokenu může změnit kvalitu obrázku z nízkého na vysoké rozlišení, upravit rozmazání pozadí, změnit úroveň jasu nebo dokonce pozici objektů na obrázku. Tento objev otevírá nové možnosti efektivní editace obrázků přímou manipulací s tokeny.

Ještě významnější je, že tým z MIT předvedl nový přístup ke generování obrázků, který vyžaduje pouze 1D tokenizér a dekodér (tzv. detokenizér), řízený volně dostupnou neuronovou sítí CLIP. Tento systém dokáže převádět jeden typ obrázku na jiný—například proměnit pandu červenou na tygra—nebo generovat zcela nové obrázky z náhodných hodnot tokenů, které jsou iterativně optimalizovány.

Tento přístup navazuje na průlomový objev z roku 2024 od výzkumníků z Technické univerzity v Mnichově a společnosti ByteDance, kteří vyvinuli metodu komprese obrázků o rozlišení 256×256 pixelů do pouhých 32 tokenů, zatímco předchozí tokenizéry běžně používaly 256 tokenů. Inovace MIT ukazuje, že i takto vysoce komprimované reprezentace obsahují bohaté sémantické informace, které lze využít pro kreativní aplikace.

Výzkumný tým tvoří také Tianhong Li z Laboratoře pro informatiku a umělou inteligenci (CSAIL) na MIT, Xinlei Chen z Facebook AI Research, profesor Sertac Karaman a docent Kaiming He z MIT. Jejich zjištění naznačují, že budoucnost generování obrázků pomocí AI bude výrazně efektivnější z hlediska výpočetních nákladů—a tento obor by se do konce desetiletí mohl stát miliardovým průmyslem.

MIT odhaluje skrytý potenciál tokenizérů neuronových sítí

Latest News

Trump představuje odvážnou strategii pro AI s cílem zajistit globální dominanci USA

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

Google rozšiřuje rodinu Gemini 2.5 o nové modely a nástroje pro vývojáře

Satelitní systém Google FireSat odhaluje první snímky požárů

Trump představuje AI centrum za 92 miliard dolarů, které má proměnit Pensylvánii

AI od DeepMind dešifruje skrytý regulační kód DNA

NetClass otevírá pobočku v Singapuru pro urychlení globální expanze v oblasti AI vzdělávání

Satelit poháněný umělou inteligencí odhalil drobné požáry, které jiné systémy přehlédly

Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

AWS představuje platformu AgentCore pro transformaci podnikových AI agentů

MIT odhaluje skrytý potenciál tokenizérů neuronových sítí

Related Articles

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

AI od DeepMind dešifruje skrytý regulační kód DNA

NetClass otevírá pobočku v Singapuru pro urychlení globální expanze v oblasti AI vzdělávání

Satelit poháněný umělou inteligencí odhalil drobné požáry, které jiné systémy přehlédly

Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

Latest News

Trump představuje odvážnou strategii pro AI s cílem zajistit globální dominanci USA

NVIDIA mění marketing pomocí OpenUSD a agentních AI nástrojů

Google rozšiřuje rodinu Gemini 2.5 o nové modely a nástroje pro vývojáře

Satelitní systém Google FireSat odhaluje první snímky požárů

Trump představuje AI centrum za 92 miliard dolarů, které má proměnit Pensylvánii

AI od DeepMind dešifruje skrytý regulační kód DNA

NetClass otevírá pobočku v Singapuru pro urychlení globální expanze v oblasti AI vzdělávání

Satelit poháněný umělou inteligencí odhalil drobné požáry, které jiné systémy přehlédly

Průlom H-Net v AI odstraňuje striktní pravidla tokenizace

AWS představuje platformu AgentCore pro transformaci podnikových AI agentů