MIT 출신들이 만든 음성 AI 스타트업 'Phonic', 신뢰성과 속도 강화 나서
음성 인공지능(AI) 스타트업 'Phonic'이 오디오북, 팟캐스트, 고객 지원 시스템 등 다양한 분야에서 활용 가능한 합성 음성 기술의 신뢰성과 속도를 획기적으로 향상시키기 위해 본격적으로 나섰다. 이 기업은 기존의 불완전한 기술을 보완하기 위해 종합적인 음성 기술 스택을 자체 개발해 제공하고 있다.
음성 AI 통합의 한계를 극복하기 위해 직접 모델 훈련
MIT 출신 모인 나딤(Moin Nadeem)과 니킬 머시(Nikhil Murthy)가 공동 설립한 Phonic은 기존 음성 AI 솔루션들이 각기 다른 AI 모델을 혼합해 사용하는 데 따른 통합성 부족 문제를 지적하며, 이를 해결하고자 회사의 모든 음성 모델을 자체 훈련하고 있다고 밝혔다.
이러한 접근 방식은 기존 해결책들과 달리 더욱 깊은 수준의 신뢰성 기능 통합이 가능하게 해준다. 특히 다양한 억양과 명확하지 않은 음성을 포함한 여러 특성의 음성 데이터를 학습에 활용함으로써, 실제 사용 환경에서도 안정적인 합성 음성을 생성할 수 있는 기술력을 확보하고 있다.
보험·의료 등 특정 산업 파트너와 협업 중
현재 Phonic은 보험과 의료 등 특정 산업군의 파트너들과 협력하면서 기술을 시험 중이며, 향후 몇 개월 내 정식 서비스 확장을 계획하고 있다. 업계에서는 이들의 기술력이 업계 판도를 바꿀 수 있는 잠재력을 지녔다고 평가하고 있다.
루кс 캐피털 중심으로 400만 달러 시드 투자 유치
Phonic은 최근 시드 라운드 투자에서 총 400만 달러(약 55억 원)를 유치했으며, 이번 라운드는 벤처 캐피털 'Lux Capital'이 주도했다. Lux의 그레이스 이스포드는 "Phonic이 확산(Diffusion) 모델과 자사 고유 모델을 결합한 독보적인 방식으로 음성 AI에 접근하고 있는 점이 투자 결정에 큰 영향을 미쳤다"고 밝혔다.
✍️ 에디터의 의견
Phonic은 시장에 이미 존재하는 기술의 단점을 정확히 짚어내고 이를 기술적으로 보완하면서, 산업 전반에 실질적인 가치를 제공하는 방향으로 나아가고 있다. 특히 음성 AI 기술의 신뢰성과 확장성을 강화하기 위한 자체 모델 훈련과 다양한 사용자 환경을 고려한 데이터 셋 활용은 향후 경쟁 우위를 확보하는 데 중요한 요소가 될 것으로 보인다. 앞으로의 상용화와 다양한 산업군에의 확산이 기대된다.