menu
close

H-Netin tekoälyläpimurto poistaa jäykät tokenisointisäännöt

Carnegie Mellon -yliopiston tutkijat julkistivat 23. heinäkuuta 2025 H-Netin, vallankumouksellisen tekoälyjärjestelmän, joka oppii automaattisesti optimaalisen tekstin segmentoinnin koulutuksen aikana sen sijaan, että se perustuisi ennalta määriteltyihin tokenisointisääntöihin. Järjestelmä osoittaa lähes nelinkertaisen suorituskyvyn DNA-sekvensseissä ja merkittäviä parannuksia useilla kielillä verrattuna perinteisiin menetelmiin. Tämä mukautuva lähestymistapa tekstin käsittelyyn edustaa perustavanlaatuista edistysaskelta siinä, miten tekoälyjärjestelmät ymmärtävät ja prosessoivat erilaisia tietotyyppejä.
H-Netin tekoälyläpimurto poistaa jäykät tokenisointisäännöt

Tohtoriopiskelija Sukjun Hwangin sekä professoreiden Brandon Wangin ja Albert Gun johtama tiimi Carnegie Mellon -yliopistossa on kehittänyt mullistavan tekoälyarkkitehtuurin nimeltä H-Net, joka voi muuttaa tapaa, jolla kielimallit käsittelevät tekstiä ja muuta sekventiaalista dataa.

Perinteiset kielimallit perustuvat tokenisointiin – esikäsittelyvaiheeseen, jossa teksti pilkotaan pienempiin yksiköihin jäykkien sääntöjen mukaisesti. Tämä lähestymistapa aiheuttaa perustavanlaatuisia rajoitteita, erityisesti kielille, joissa ei ole selkeitä sanavälejä, sekä erikoisaloille kuten genomiikka. H-Net poistaa tämän rajoitteen toteuttamalla dynaamisen paloittelumekanismin, joka oppii automaattisesti tehokkaimman tavan segmentoida tekstiä koulutuksen aikana.

Tutkijoiden artikkeli, joka julkaistiin arXivissa 10. heinäkuuta ja päivitettiin 15. heinäkuuta 2025, osoittaa, että H-Net saavuttaa lähes nelinkertaisen datatehokkuuden DNA-sekvenssien käsittelyssä verrattuna perinteisiin menetelmiin. Järjestelmä osoittaa myös parempaa suorituskykyä useilla kielillä, erityisesti kiinassa ja ohjelmointikoodissa.

H-Netin tekee vallankumoukselliseksi sen kyky oppia sisältö- ja kontekstiriippuvaisia segmentointistrategioita ilman eksplisiittistä ohjausta. Malli toimii tavutasolla ja hyödyntää hierarkkista verkkoarkkitehtuuria, jota voidaan toistaa useissa vaiheissa, mahdollistaen eri abstraktiotasoja. Tämä lähestymistapa mahdollistaa sen, että H-Net yltää kaksi kertaa suurempien token-pohjaisten Transformer-mallien suorituskykyyn.

Kielenkäsittelyn lisäksi H-Net avaa mahdollisuuksia jatkuva-arvoisten sekvenssien, kuten äänen ja videon, käsittelyyn, mikä voi mahdollistaa paremmat multimodaaliset tekoälyjärjestelmät. Tutkijat ovat julkaisseet koodinsa avoimesti GitHubissa, jotta muut tutkijat ja kehittäjät voivat rakentaa työnsä tämän varaan.

"Tokenisoinnin voittaminen ei liity tokenisoijiin, vaan abstraktioiden oppimiseen", kirjoitti Albert Gu projektia käsittelevässä blogikirjoituksessaan. "Työkalun löytäminen, joka kykenee tähän, avaa uusia mahdollisuuksia." Tekoälyjärjestelmien kehittyessä H-Net edustaa merkittävää askelta kohti joustavampia, tehokkaampia ja kyvykkäämpiä malleja, jotka ymmärtävät paremmin ihmiskielen ja muun sekventiaalisen datan monimutkaisuutta.

Source: Theneuron

Latest News