오픈AI, 음성 생성 및 음성 인식 신모델 공개
맞춤형 감정 표현 가능한 음성 합성 기술 선보여
AI 기술 선두주자인 오픈AI가 자사의 API에 새롭게 개발한 음성 생성 및 음성 인식 모델을 추가했다. 이번에 공개된 모델들은 기존 기술보다 더 자연스럽고 정교한 성능을 제공하며, 오픈AI가 목표로 하는 ‘사용자를 위한 자동화 시스템 구축’이라는 비전에 또 한 걸음 다가갔다는 평가를 받고 있다.
정교한 감정 표현 가능한 'gpt-4o-mini-tts'
오픈AI가 발표한 새 음성 생성 모델 ‘gpt-4o-mini-tts’는 단순히 텍스트를 음성으로 변환하는 데 그치지 않고, 감정 표현까지 가능하도록 설계됐다. 고객센터 상황에서 사과의 감정을 담은 말투처럼, 상황에 맞는 감정과 말투를 입힐 수 있는 유연한 커스터마이징 기능이 특징이다. 이전 모델들과 비교해 현실감 있는 목소리를 생성할 수 있으며, 개발자가 원하는 말투나 감정 표현을 지정하여 사용자 경험을 개선할 수 있다.
다양한 억양 인식 가능한 신형 음성 인식 모델
음성 인식 분야에서도 ‘gpt-4o-transcribe’와 경량형 ‘gpt-4o-mini-transcribe’ 모델이 새롭게 공개됐다. 이 모델들은 기존 음성 인식 모델인 Whisper를 대체할 목적으로 설계되었으며, 더 높은 정확도로 다양한 억양과 노이즈 환경에서도 뛰어난 성능을 보여준다. 특히, 의도하지 않은 단어나 문장을 만들어내는 현상도 Whisper보다 현저히 줄었다고 오픈AI는 설명했다.
특정 언어서 여전한 한계… 최대 30% 오류
다만 이번 모델들도 완벽한 수준은 아니다. 인도계 언어(Indic 및 Dravidian 계열 언어)에서는 단어 오류율이 최대 30%에 달한다는 분석이 있다. 이는 10개 단어 중 3개가 실제 사람의 전사 결과와 다를 가능성이 있다는 의미다. 특정 언어에 대한 성능은 여전히 개발 과제로 남아 있다.
새 모델, 공개는 제한적으로
한편, 오픈AI는 새로운 음성 인식 모델들을 일반에 공개하지 않겠다고 밝혔다. 기존 Whisper 모델과 달리, gpt-4o 기반 모델들은 규모와 복잡성이 크기 때문에 오픈소스로 제공하지 않고 API를 통해 제한적으로만 활용 가능하다.
이번 오픈AI의 업데이트는 AI가 인간의 언어를 이해하고 표현하는 수준에서 한층 발전한 모습을 보여준다. 특히 감정을 실은 음성 생성은 자동화 서비스나 고객 문의 대응에서 실용적으로 활용될 가능성이 크다. 다만, 다양한 언어에 대한 정확도 확보는 앞으로 기술이 해결해야 할 과제다. 기존 Whisper를 사용하던 이용자들에게는 이번의 변화가 긍정적인 방향일 수 있지만, 오픈소스 형태로 제공되지 않는 점은 개발자와 연구자들에게 아쉬움으로 남는다.