H-Net, AI 토크나이제이션의 한계를 뛰어넘다

카네기 멜론 대학교 연구진이 2025년 7월 23일, 사전에 정해진 토크나이제이션 규칙에 의존하지 않고 학습 과정에서 최적의 텍스트 분할 방식을 자동으로 학습하는 혁신적인 AI 시스템 'H-Net'을 공개했다. 이 시스템은 DNA 서열 처리에서 기존 방식 대비 약 4배 향상된 성능을 보였으며, 다양한 언어에서도 큰 개선 효과를 입증했다. 이러한 적응형 텍스트 처리 방식은 AI가 다양한 데이터를 이해하고 처리하는 방식에 근본적인 변화를 예고한다.

카네기 멜론 대학교의 박사과정 황석준 학생과 브랜든 왕, 알버트 구 교수 연구팀이 텍스트 및 기타 순차 데이터를 처리하는 언어 모델의 패러다임을 바꿀 수 있는 혁신적 AI 아키텍처 'H-Net'을 개발했다.

기존 언어 모델은 텍스트를 일정 규칙에 따라 작은 단위로 분할하는 '토크나이제이션' 사전 처리 과정에 의존한다. 하지만 이 방식은 명확한 단어 경계가 없는 언어나 유전체학 등 특수 분야에서는 한계가 뚜렷하다. H-Net은 학습 과정에서 텍스트를 가장 효과적으로 분할하는 방법을 스스로 학습하는 동적 청킹(chunking) 메커니즘을 도입해 이러한 제약을 극복했다.

연구진이 2025년 7월 10일 arXiv에 게재하고 7월 15일 업데이트한 논문에 따르면, H-Net은 DNA 서열 처리에서 기존 방식 대비 데이터 효율성이 약 4배 향상됐다. 또한 중국어와 프로그래밍 코드 등 다양한 언어에서도 우수한 성능을 입증했다.

H-Net의 혁신성은 명시적 감독 없이도 내용과 맥락에 따라 최적의 분할 전략을 스스로 학습한다는 점이다. 이 모델은 바이트 단위로 동작하며, 계층적 네트워크 구조를 반복적으로 적용해 다양한 추상화 수준을 모델링할 수 있다. 이를 통해 H-Net은 기존 토큰 기반 트랜스포머 모델보다 절반 크기로 동등한 성능을 달성했다.

언어 처리 외에도 H-Net은 오디오, 비디오 등 연속값 시퀀스 처리에도 적용 가능해, 향후 멀티모달 AI 시스템의 발전 가능성을 열어준다. 연구진은 GitHub에 코드를 공개해 다른 연구자와 개발자들이 이를 활용할 수 있도록 했다.

알버트 구 교수는 블로그를 통해 "토크나이제이션 극복은 토크나이저의 문제가 아니라, 추상화 학습의 문제"라며, "이런 도구를 발견함으로써 새로운 가능성이 열릴 것"이라고 밝혔다. AI 시스템이 진화함에 따라, H-Net은 인간 언어와 다양한 순차 데이터를 더 유연하고 효율적으로 이해하는 차세대 모델로의 도약을 예고한다.

H-Net, AI 토크나이제이션의 한계를 뛰어넘다

Latest News

트럼프, 미국의 글로벌 우위를 위한 대담한 AI 전략 공개

NVIDIA, OpenUSD와 에이전틱 AI 도구로 마케팅 혁신

구글, Gemini 2.5 패밀리 확장…신규 모델 및 개발자 도구 출시

구글 AI 위성 시스템, 최초의 산불 이미지 공개

트럼프, 펜실베이니아 혁신 위한 920억 달러 AI 허브 공개

딥마인드 AI, DNA의 숨겨진 조절 코드 해독

넷클래스, 싱가포르 허브 설립…글로벌 AI 교육 확장 가속화

AI 기반 위성, 기존 시스템이 감지하지 못한 미세 산불 포착

AWS, 엔터프라이즈 AI 에이전트 혁신 위한 AgentCore 플랫폼 공개

Meta와 AWS, AI 스타트업 혁신 가속화 위해 협력

H-Net, AI 토크나이제이션의 한계를 뛰어넘다

Related Articles

트럼프, 미국의 글로벌 우위를 위한 대담한 AI 전략 공개

NVIDIA, OpenUSD와 에이전틱 AI 도구로 마케팅 혁신

구글, Gemini 2.5 패밀리 확장…신규 모델 및 개발자 도구 출시

구글 AI 위성 시스템, 최초의 산불 이미지 공개

트럼프, 펜실베이니아 혁신 위한 920억 달러 AI 허브 공개

Latest News

트럼프, 미국의 글로벌 우위를 위한 대담한 AI 전략 공개

NVIDIA, OpenUSD와 에이전틱 AI 도구로 마케팅 혁신

구글, Gemini 2.5 패밀리 확장…신규 모델 및 개발자 도구 출시

구글 AI 위성 시스템, 최초의 산불 이미지 공개

트럼프, 펜실베이니아 혁신 위한 920억 달러 AI 허브 공개

딥마인드 AI, DNA의 숨겨진 조절 코드 해독

넷클래스, 싱가포르 허브 설립…글로벌 AI 교육 확장 가속화

AI 기반 위성, 기존 시스템이 감지하지 못한 미세 산불 포착

AWS, 엔터프라이즈 AI 에이전트 혁신 위한 AgentCore 플랫폼 공개

Meta와 AWS, AI 스타트업 혁신 가속화 위해 협력