menu
close

구글, Gemma 3n 공개: 모바일 기기를 위한 강력한 멀티모달 AI

구글이 Gemma 3n을 출시했다. 이 획기적인 멀티모달 AI 모델은 2GB의 메모리만으로도 소비자 기기에서 효율적으로 구동되도록 설계됐다. 오디오, 텍스트, 이미지, 비디오 입력을 모두 처리할 수 있으며, 스마트폰, 태블릿, 노트북 등에서 로컬로 작동한다. 퀄컴, 미디어텍, 삼성 등 하드웨어 제조사와의 협업으로 개발된 이 모바일 우선 아키텍처는 클라우드 연결 없이도 강력한 AI를 누구나 사용할 수 있게 하는 중요한 진전이다.
구글, Gemma 3n 공개: 모바일 기기를 위한 강력한 멀티모달 AI

구글이 공식적으로 Gemma 3n을 출시했다. 이 최신 오픈 멀티모달 AI 모델은 모바일 및 엣지 디바이스에 특화되어 설계되었으며, 클라우드 처리가 필요 없는 첨단 AI 기능을 소비자 하드웨어에 직접 제공하는 중요한 이정표를 세웠다.

Gemma 3n은 효과적인 파라미터 기준으로 E2B와 E4B 두 가지 크기로 제공된다. 실제 파라미터 수는 각각 5B와 8B이지만, 아키텍처 혁신을 통해 기존 2B, 4B 모델과 유사한 메모리 사용량으로 동작하며, E2B는 2GB, E4B는 3GB의 메모리만으로도 구동이 가능하다. 이러한 효율성은 MatFormer 아키텍처와 Per-Layer Embeddings 등 다양한 기술 혁신을 통해 달성됐다.

이 모델은 설계 단계부터 진정한 멀티모달로, 이미지, 오디오, 비디오, 텍스트 입력을 모두 네이티브로 지원하며 텍스트 출력을 생성한다. 확장된 오디오 기능으로 고품질 자동 음성 인식(전사)과 음성-텍스트 번역이 가능하다. 또한, 다양한 모달리티의 입력을 교차로 받아 복잡한 멀티모달 상호작용을 이해할 수 있다.

시각 처리 측면에서 Gemma 3n은 고효율 비전 인코더인 MobileNet-V5-300M을 탑재해 엣지 디바이스에서 멀티모달 작업에 최첨단 성능을 제공한다. 이 인코더는 256x256, 512x512, 768x768 픽셀 등 다양한 입력 해상도를 네이티브로 지원하며, 광범위한 이미지 및 비디오 이해 작업에 뛰어나고, 구글 픽셀에서 최대 초당 60프레임까지 처리할 수 있다.

E4B 버전은 LMArena 점수 1300 이상을 기록, 100억 파라미터 미만 모델 중 최초로 이 기준을 달성했다. Gemma 3n은 140개 언어의 텍스트와 35개 언어의 멀티모달 이해를 지원하는 등 다국어 품질이 크게 향상됐으며, 수학, 코딩, 추론 능력도 강화됐다.

프라이버시 역시 핵심 특징이다. 로컬 실행을 통해 인터넷 연결 없이도 사용자 개인정보를 보호하며 안정적으로 기능한다. 이 모델은 퀄컴 테크놀로지, 미디어텍, 삼성 시스템LSI 사업부 등 모바일 하드웨어 선도 기업과 긴밀히 협력해 개발됐으며, 초고속 멀티모달 AI로 기기 내에서 진정한 개인화와 프라이버시를 제공한다.

이번 정식 출시는 2025년 5월 구글 I/O에서의 프리뷰에 이은 것으로, 현재 Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX 등 주요 프레임워크를 통해 이용할 수 있다. 이번 대규모 출시는 개발자들이 주변 세계를 이해하고 반응할 수 있는 새로운 세대의 지능형 온디바이스 애플리케이션을 구축할 수 있도록 지원한다.

Source:

Latest News