새로운 음성 인식 API 스타트업, 글라디아의 부상
프랑스 소재 스타트업 글라디아(Gladia)가 1,600만 달러 규모의 시리즈 A 투자를 유치했다. 글라디아는 음성 인식 API(응용 프로그래밍 인터페이스)를 제공하는 기업으로, 이를 통해 사용자는 고도의 정확성과 짧은 처리 시간을 가진 텍스트 변환 서비스를 이용할 수 있다.
음성 인식 기술은 최근 몇 년간 큰 발전을 이루었으며, 특히 OpenAI의 Whisper 출시 이후 많은 진전이 있었다. Amazon, Microsoft, Google과 같은 대형 기업들도 관련 API를 제공하고 있지만, 글라디아와 같은 전문 스타트업이 더 나은 성능을 자랑한다.
다중 화자 인식, 100개 언어와 악센트 지원
글라디아는 Whisper의 음성 인식 모델을 기반으로 개선된 버전을 제공하며, 대화에서 여러 화자를 감지하고 구분할 수 있는 기능을 갖추고 있다. 또한 100개의 언어와 다양한 악센트를 지원하여 사용자 경험을 향상시켰다.
이 스타트업의 API는 이미 600개 이상의 기업에서 활용되고 있으며, 주로 회의 기록 및 메모 작성 도우미가 이에 포함된다. 예를 들어, Attention, Circleback, Recall 같은 서비스에서 음성을 텍스트로 변환한 후, 대규모 언어 모델(LLM)을 활용하여 필요한 정보를 추출한다.
글라디아는 이번 자금 조달을 통해 오디오 인텔리전스와 LLM 기반 작업을 단일 API 호출 내에서 통합할 계획이다. 이렇게 되면 사용자는 특정 대화의 요약본을 생성할 때 여러 API 호출에 의존하지 않아도 된다.
실시간 처리의 지연 문제 해결
실시간 음성 처리는 품질 면에서 여전히 과제로 남아있다. 많은 기업들이 실시간 처리를 선호하지만, 품질 문제로 인해 후에 배치 처리를 하기 마련이다. 글라디아는 실시간 처리의 지연 문제를 해결하여 현재 300 밀리초 이하의 지연을 경험할 수 있도록 했다.
이 기술은 콜센터에서도 활용될 수 있으며, 통화 도중 필요한 정보를 빠르게 찾을 수 있게 도와준다. 글라디아의 API는 SIP, VoIP, FreeSwitch, Asterisk 등 모든 기존 기술 스택과 프로토콜에 호환된다.
시리즈 A 투자 라운드는 XAnge가 주도했으며, Illuminate Financial, XTX Ventures 등도 참여했다. 글라디아는 오디오 응용 프로그램의 'ChatGPT 순간'이 임박했다고 믿으며, 자동화된 전사 기술의 가치를 인식하게 될 것이라고 전망하고 있다.
출처 : Gladia believes real-time processing is the next frontier of audio transcription APIs