menu
close

H-Net, AI 토크나이제이션의 한계를 뛰어넘다

카네기 멜론 대학교 연구진이 2025년 7월 23일, 사전에 정해진 토크나이제이션 규칙에 의존하지 않고 학습 과정에서 최적의 텍스트 분할 방식을 자동으로 학습하는 혁신적인 AI 시스템 'H-Net'을 공개했다. 이 시스템은 DNA 서열 처리에서 기존 방식 대비 약 4배 향상된 성능을 보였으며, 다양한 언어에서도 큰 개선 효과를 입증했다. 이러한 적응형 텍스트 처리 방식은 AI가 다양한 데이터를 이해하고 처리하는 방식에 근본적인 변화를 예고한다.
H-Net, AI 토크나이제이션의 한계를 뛰어넘다

카네기 멜론 대학교의 박사과정 황석준 학생과 브랜든 왕, 알버트 구 교수 연구팀이 텍스트 및 기타 순차 데이터를 처리하는 언어 모델의 패러다임을 바꿀 수 있는 혁신적 AI 아키텍처 'H-Net'을 개발했다.

기존 언어 모델은 텍스트를 일정 규칙에 따라 작은 단위로 분할하는 '토크나이제이션' 사전 처리 과정에 의존한다. 하지만 이 방식은 명확한 단어 경계가 없는 언어나 유전체학 등 특수 분야에서는 한계가 뚜렷하다. H-Net은 학습 과정에서 텍스트를 가장 효과적으로 분할하는 방법을 스스로 학습하는 동적 청킹(chunking) 메커니즘을 도입해 이러한 제약을 극복했다.

연구진이 2025년 7월 10일 arXiv에 게재하고 7월 15일 업데이트한 논문에 따르면, H-Net은 DNA 서열 처리에서 기존 방식 대비 데이터 효율성이 약 4배 향상됐다. 또한 중국어와 프로그래밍 코드 등 다양한 언어에서도 우수한 성능을 입증했다.

H-Net의 혁신성은 명시적 감독 없이도 내용과 맥락에 따라 최적의 분할 전략을 스스로 학습한다는 점이다. 이 모델은 바이트 단위로 동작하며, 계층적 네트워크 구조를 반복적으로 적용해 다양한 추상화 수준을 모델링할 수 있다. 이를 통해 H-Net은 기존 토큰 기반 트랜스포머 모델보다 절반 크기로 동등한 성능을 달성했다.

언어 처리 외에도 H-Net은 오디오, 비디오 등 연속값 시퀀스 처리에도 적용 가능해, 향후 멀티모달 AI 시스템의 발전 가능성을 열어준다. 연구진은 GitHub에 코드를 공개해 다른 연구자와 개발자들이 이를 활용할 수 있도록 했다.

알버트 구 교수는 블로그를 통해 "토크나이제이션 극복은 토크나이저의 문제가 아니라, 추상화 학습의 문제"라며, "이런 도구를 발견함으로써 새로운 가능성이 열릴 것"이라고 밝혔다. AI 시스템이 진화함에 따라, H-Net은 인간 언어와 다양한 순차 데이터를 더 유연하고 효율적으로 이해하는 차세대 모델로의 도약을 예고한다.

Source: Theneuron

Latest News