구글은 2025년 I/O 행사에서 영상 통화 중 실제 통역사를 둔 것처럼 자연스러운 실시간 음성 번역 기능을 구글 미트(Google Meet)에 도입했다고 발표했다.
기존 번역 도구가 자막이나 인공적인 목소리에 의존했던 것과 달리, 구글의 새로운 기능은 음성에서 음성으로 직접 변환을 수행한다. 이 기능을 활성화하면, 사용자가 말하는 내용을 상대방이 원하는 언어로 번역해 들려주면서도, 화자의 원래 목소리 특성(톤, 억양, 감정 표현 등)을 그대로 보존한다. 사용자는 원본 음성을 희미하게 들으면서 그 위에 번역된 음성이 겹쳐져, 실제 대화에 가까운 경험을 제공한다.
구글은 I/O 발표에서 “구글 딥마인드가 개발한 강력한 오디오 언어 모델을 활용해, 서로 다른 언어를 사용하는 사람들 간에도 자연스럽고 매끄러운 대화가 가능하다”고 밝혔다. 이 기술은 AudioLM을 기반으로 하며, 오디오 데이터를 학습해 언어를 변환하면서도 원본 음질을 최대한 유지한다.
이 기능은 현재 Google AI Pro(월 19.99달러) 및 새롭게 출시된 AI Ultra(월 249.99달러) 구독자에게 베타로 제공되고 있다. 특히, 통화 참가자 중 한 명만 구독해도 모든 참가자가 번역 기능을 이용할 수 있다. 초기에는 영어와 스페인어를 지원하며, 향후 몇 주 내에 이탈리아어, 독일어, 포르투갈어가 추가될 예정이다.
이 기술의 활용 범위는 매우 넓다. 예를 들어, 영어를 쓰는 손주와 스페인어를 쓰는 조부모가 자연스럽게 대화하거나, 국제 비즈니스 협업을 원활하게 진행할 수 있다. 구글은 올해 후반 워크스페이스 비즈니스 고객을 대상으로 한 초기 테스트도 시작할 계획이라고 밝혀, 글로벌 기업 커뮤니케이션의 판도를 바꿀 것으로 기대된다.
이번 발표는 경쟁사 대비 큰 도약으로 평가된다. 마이크로소프트 팀즈(Teams)와 스카이프(Skype) 등도 번역 기능을 제공해왔지만, 구글의 접근 방식은 대화의 인간적인 요소를 살리며 더욱 자연스럽고 유연한 경험을 제공한다는 점에서, 글로벌 언어 장벽 해소에 중요한 진전을 이뤘다는 평가다.