구글, 첨단 음성 AI 모델 ‘Chirp 3’ 공개
구글이 자사의 클라우드 기반 AI 플랫폼인 버텍스 AI(Vertex AI)에 새로운 음성 인식 및 음성 합성 모델 'Chirp 3'를 다음 주부터 도입한다고 발표했다. 이번 업데이트를 통해 구글은 31개 언어에 걸친 8가지 새로운 음성 옵션을 제공하며, 이를 통해 음성 비서, 오디오북 제작, 고객지원 에이전트 개발, 영상 음성 더빙 등 다양한 활용이 가능해질 전망이다.
31개 언어, 다양한 활용 분야 지원
Chirp 3는 텍스트를 음성으로 전환하는 HD Text-to-Speech(TTS) 기술과, 음성을 텍스트로 바꾸는 고급 Speech-to-Text(STT) 기능을 갖춘 모델이다. 특히 이번 발표는 구글 딥마인드(DeepMind)의 런던 오피스에서 열린 행사에서 이뤄졌으며, 음성 AI 기술의 실용화를 위한 구글의 중장기 전략의 일환으로 소개됐다.
이 기능은 단순한 사용자 명령 인식 이상의 역할을 수행할 수 있으며, 예를 들어 기업 고객은 고객 응대용 자동화 에이전트를 만들 수 있고, 콘텐츠 제작자는 오디오북이나 영상 콘텐츠용 음성 더빙을 손쉽게 구현할 수 있다.
경쟁사 대비 품질 차이에 대한 우려도
Chirp 3는 구글의 대형 언어 모델(Large Language Model)인 ‘제미나이(Gemini)’와 이미지 생성 모델 ‘이미젠(Imagen)’과 함께 AI 기술 포트폴리오를 보완하는 역할을 한다. 다만, 일부에서는 Chirp 3가 현실적인 음성 구현 측면에서 경쟁 제품보다 부족할 수 있다는 우려도 제기된다.
딥마인드 CEO 데미스 하사비스는 이번 기술이 당장 완성형이 아니라, 향후 10년간 꾸준한 발전이 이어질 것이라는 점을 강조하며 기대감을 나타냈다.
오용 방지를 위한 제한도 마련
Chirp 3는 특정 악용 사례를 방지하기 위해 사용 제한이 도입될 예정이다. 구글 클라우드 CEO 토마스 쿠리안은 "음성 AI 기술이 오용되지 않도록 다양한 정책과 접근 제어가 함께 적용될 것"이라고 밝혔다. 이는 타인의 음성을 도용하거나 가짜 음성 콘텐츠를 만드는 등의 문제에 대비한 조치로 풀이된다.
버텍스 AI를 통한 구글의 AI 확장 전략
Chirp 3가 통합되는 버텍스 AI는 2021년 출시된 구글의 머신러닝 플랫폼으로, 데이터 분류, 모델 학습 및 배포를 지원한다. 구글은 마이크로소프트의 애저(Azure)나 아마존의 AWS 등, 경쟁사 대비 뒤처진 생성형 AI 영역에서 점유율을 확대하기 위한 전략으로 본 모델을 내세우고 있다.
음성 AI 경쟁 본격화…아마존과의 정면 승부
구글은 지난 수년간 ‘Chirp’ 시리즈 이름으로 음성 관련 기술을 꾸준히 개발해왔으며, 이번 업데이트는 아마존의 ‘알렉사(Alexa)’ 같은 서비스와의 본격적인 경쟁을 의미한다. 동시에 스타트업 ‘세서미(Sesame)’ 등 다양한 기업들이 음성 특화 AI 솔루션을 내놓고 있는 상황이어서, 글로벌 음성 AI 시장의 경쟁은 더욱 치열해질 것으로 보인다.
기자 의견
이번 Chirp 3의 공개는 구글이 그간 축적해온 음성 데이터와 AI 기술을 바탕으로 본격적인 시장 진입을 시도하는 신호탄으로 보인다. 특히 31개 언어를 지원하며 다국어 시장에서도 경쟁 우위를 확보하려는 전략이 인상적이다. 다만, 사용자 경험이 핵심인 음성 기술 분야에서는 단순 기술 사양보다 실제 구현 결과의 자연스러움과 몰입도가 중요하므로, 향후 성능 개선 여부가 성공의 관건이 될 것이다.