아마존, 혁신적 음성 생성 AI 모델 '노바 소닉' 공개
아마존이 새로운 생성형 AI 음성 모델 '노바 소닉(Nova Sonic)'을 공개했다. 이 모델은 음성을 인식하고 자연스러운 말투로 음성을 생성해내는 기능을 갖췄으며, 처리 속도, 인식 능력, 대화 품질 면에서 오픈AI(OpenAI)와 구글(Google)의 최신 모델과 비교해도 경쟁력이 있다고 아마존은 밝혔다.
베드록 통해 제공… 80% 저렴한 비용
노바 소닉은 아마존의 개발자 플랫폼 '베드록(Bedrock)'을 통해 이용할 수 있으며, 양방향 스트리밍 API가 함께 제공된다. 아마존은 이 모델이 시장에서 가장 비용 효율적인 AI 음성 모델로, 오픈AI의 GPT-4o 대비 약 80% 저렴하다고 설명했다.
알렉사 플러스에 이미 적용… 실시간 정보 처리도 가능
노바 소닉의 일부 기능은 이미 강화된 버전의 디지털 음성 비서 '알렉사 플러스(Alexa+)'에 적용되어 있다. 이 모델은 사용자의 요청을 실제 필요에 맞게 다양한 API로 연결해 실시간 정보 조회는 물론 외부 애플리케이션에서 능동적인 조치까지 취할 수 있다.
또한 대화 중 화자의 일시적인 침묵이나 끼어드는 상황까지 자연스럽게 처리할 수 있도록 설계됐으며, 사용자의 발화를 텍스트로 전사하는 기능도 지원해 다양한 응용 프로그램에서 활용할 수 있다.
낮은 오류율과 빠른 반응 속도
노바 소닉은 여러 언어를 대상으로 한 벤치마크 테스트에서 단어 오류율(WER) 4.2%를 기록, 매우 높은 정확도를 보였다. 특히, 시끄러운 환경에서도 오픈AI의 전사 모델보다 46.7%나 더 정확한 성능을 보였다는 평가를 받았다. 평균 응답 지연(latency) 시간은 1.09초로 측정되어, 여러 기존 모델보다 빠른 속도를 자랑한다.
AGI 개발 목표에 핵심 역할
아마존 AGI(인공지능 총괄 지능) 책임자 로힛 프라사드(Rohit Prasad) 수석 부사장은 "노바 소닉은 인간이 컴퓨터에서 수행할 수 있는 모든 작업을 처리할 수 있도록 하는 차세대 인공지능 개발 목표에 기여하고 있다"고 밝혔다. 앞으로 아마존은 이미지, 영상, 음성 데이터를 포함한 다양한 데이터 형태를 이해하는 능력을 강화해 나갈 계획이다.
의견
아마존은 노바 소닉을 통해 생성형 음성 AI 분야에서 확실한 차별화를 꾀하고 있다. 특히 높은 정확도와 신속한 응답 속도, 그리고 비용 경쟁력까지 갖췄다는 점은 산업 전반에 상당한 영향을 미칠 것으로 보인다. 향후 다양한 디바이스와 서비스에 노바 소닉이 어떻게 활용될지 기대된다. 또한 AGI 개발을 위한 중장기 전략의 일환으로 음성 AI 기술을 적극 강화한다는 점에서도 아마존의 방향성이 명확히 드러난다.