카네기 멜론 대학교의 박사과정 황석준 학생과 브랜든 왕, 알버트 구 교수 연구팀이 텍스트 및 기타 순차 데이터를 처리하는 언어 모델의 패러다임을 바꿀 수 있는 혁신적 AI 아키텍처 'H-Net'을 개발했다.
기존 언어 모델은 텍스트를 일정 규칙에 따라 작은 단위로 분할하는 '토크나이제이션' 사전 처리 과정에 의존한다. 하지만 이 방식은 명확한 단어 경계가 없는 언어나 유전체학 등 특수 분야에서는 한계가 뚜렷하다. H-Net은 학습 과정에서 텍스트를 가장 효과적으로 분할하는 방법을 스스로 학습하는 동적 청킹(chunking) 메커니즘을 도입해 이러한 제약을 극복했다.
연구진이 2025년 7월 10일 arXiv에 게재하고 7월 15일 업데이트한 논문에 따르면, H-Net은 DNA 서열 처리에서 기존 방식 대비 데이터 효율성이 약 4배 향상됐다. 또한 중국어와 프로그래밍 코드 등 다양한 언어에서도 우수한 성능을 입증했다.
H-Net의 혁신성은 명시적 감독 없이도 내용과 맥락에 따라 최적의 분할 전략을 스스로 학습한다는 점이다. 이 모델은 바이트 단위로 동작하며, 계층적 네트워크 구조를 반복적으로 적용해 다양한 추상화 수준을 모델링할 수 있다. 이를 통해 H-Net은 기존 토큰 기반 트랜스포머 모델보다 절반 크기로 동등한 성능을 달성했다.
언어 처리 외에도 H-Net은 오디오, 비디오 등 연속값 시퀀스 처리에도 적용 가능해, 향후 멀티모달 AI 시스템의 발전 가능성을 열어준다. 연구진은 GitHub에 코드를 공개해 다른 연구자와 개발자들이 이를 활용할 수 있도록 했다.
알버트 구 교수는 블로그를 통해 "토크나이제이션 극복은 토크나이저의 문제가 아니라, 추상화 학습의 문제"라며, "이런 도구를 발견함으로써 새로운 가능성이 열릴 것"이라고 밝혔다. AI 시스템이 진화함에 따라, H-Net은 인간 언어와 다양한 순차 데이터를 더 유연하고 효율적으로 이해하는 차세대 모델로의 도약을 예고한다.