menu
close

H-Net Yapay Zekâ Atılımı Katı Tokenizasyon Kurallarını Ortadan Kaldırıyor

Carnegie Mellon Üniversitesi’nden araştırmacılar, 23 Temmuz 2025’te H-Net’i tanıttı. Bu devrim niteliğindeki yapay zekâ sistemi, önceden programlanmış tokenizasyon kurallarına bağlı kalmak yerine, eğitim sırasında metni en verimli şekilde bölmeyi otomatik olarak öğreniyor. Sistem, DNA dizilerinde neredeyse 4 kat daha iyi performans ve geleneksel yöntemlere kıyasla birçok dilde önemli iyileşmeler gösteriyor. Metin işleme konusunda bu uyarlanabilir yaklaşım, yapay zekâ sistemlerinin farklı veri türlerini anlama ve işleme biçiminde temel bir ilerlemeye işaret ediyor.
H-Net Yapay Zekâ Atılımı Katı Tokenizasyon Kurallarını Ortadan Kaldırıyor

Carnegie Mellon Üniversitesi’nden doktora öğrencisi Sukjun Hwang ile profesörler Brandon Wang ve Albert Gu’nun liderliğindeki bir ekip, dil modellerinin metin ve diğer sıralı verileri işleme biçimini kökten değiştirebilecek H-Net adlı çığır açıcı bir yapay zekâ mimarisi geliştirdi.

Geleneksel dil modelleri, metni katı kurallara göre daha küçük birimlere bölen tokenizasyon adlı bir ön işleme adımına dayanır. Bu yaklaşım, özellikle belirgin kelime sınırları olmayan diller ve genomik gibi özel alanlar için temel sınırlamalar yaratır. H-Net, eğitim sırasında metni en etkili şekilde bölmeyi otomatik olarak öğrenen dinamik bir parçalara ayırma mekanizması uygulayarak bu kısıtı ortadan kaldırıyor.

Araştırmacıların 10 Temmuz’da arXiv’de yayımlanan ve 15 Temmuz 2025’te güncellenen makalesi, H-Net’in DNA dizilerini işlerken geleneksel yaklaşımlara kıyasla veri verimliliğinde neredeyse 4 kat iyileşme sağladığını gösteriyor. Sistem, özellikle Çince ve programlama kodlarında olmak üzere, birçok dilde üstün performans sergiliyor.

H-Net’i devrimsel kılan şey, içerik ve bağlama bağlı bölütleme stratejilerini açık bir denetim olmadan öğrenebilmesi. Model, bayt seviyesinde çalışıyor ve farklı soyutlama düzeylerini modellemesini sağlayan, çok aşamalı olarak yineleyebilen hiyerarşik bir ağ yapısı içeriyor. Bu yaklaşım, H-Net’in kendi boyutunun iki katı olan token tabanlı Transformer’larla eşdeğer performans göstermesini mümkün kılıyor.

Dil işlemenin ötesinde, H-Net ses ve video gibi sürekli değerli dizileri işlemek için de yeni olanaklar sunuyor ve daha iyi çok modlu yapay zekâ sistemlerinin önünü açabilir. Araştırmacılar, çalışmalarını temel almak isteyen diğer araştırmacı ve geliştiriciler için kodlarını GitHub’da herkese açık olarak paylaştı.

"Tokenizasyonu aşmak, tokenizer’larla ilgili değil; soyutlamaları öğrenmekle ilgili," diye yazdı Albert Gu, projeyi açıklayan bir blog yazısında. "Bunu yapabilen bir araç keşfetmek yeni yeteneklerin kilidini açacaktır." Yapay zekâ sistemleri gelişmeye devam ederken, H-Net insan dilinin ve diğer sıralı verilerin karmaşıklığını daha iyi anlayabilen, daha esnek, verimli ve yetenekli modeller yolunda önemli bir adımı temsil ediyor.

Source: Theneuron

Latest News