ElevenLabs, 인공지능 음성 복제 및 텍스트-음성 변환 API 제공
사용자 맞춤형 대화형 AI 봇 개발 지원
스타트업 ElevenLabs가 인공지능 음성 복제 및 텍스트-음성 변환 API를 제공하며, 사용자가 대화형 AI 봇을 개발할 수 있는 기능을 선보였다. 이로써 사용자들은 ElevenLabs의 플랫폼을 통해 음성 톤이나 응답 길이와 같은 변수를 활용해 맞춤형 대화 에이전트를 제작할 수 있게 되었다.
회사 측은 많은 고객들이 이미 이러한 기능을 활용해 대화형 AI 에이전트를 만들고 있었으나, 지식 기반의 통합과 고객의 중단 상황을 처리하는 것이 가장 어려운 부분이라고 언급했다. 이를 해결하기 위해, ElevenLabs는 대화형 봇을 위한 완전한 파이프라인을 구축하기로 결정했다고 밝혔다.
ElevenLabs 계정에 로그인한 사용자는 템플릿을 선택하거나 새로운 프로젝트를 생성하여 대화형 에이전트를 만들어 나갈 수 있다. 에이전트의 주요 언어, 첫 번째 메시지, 시스템 프롬프트를 설정하며, 에이전트의 인지도 결정할 수 있다. 대형 언어 모델(Gemini, GPT, Claude)과 응답의 창의성을 좌우하는 온도 값, 토큰 사용 한도도 개발자가 선택한다.
또한, 사용자는 목소리, 지연시간, 안정성, 인증 기준, AI 에이전트와의 최대 대화 길이 등을 조정할 수 있다. 자신의 지식 기반 데이터를 파일, URL, 또는 텍스트 블록 형태로 추가하여 대화형 봇을 강화할 수 있으며, 개인 맞춤형 대형 언어 모델(LLM)을 봇에 통합할 수도 있다.
ElevenLabs의 SDK는 Python, JavaScript, React, Swift와 호환되며, 추가적인 맞춤화를 위한 WebSocket API도 제공된다. 기업은 에이전트와 대화하는 고객의 이름 및 이메일 등의 데이터를 모으고, 자연어로 성공 및 실패 기준을 정의할 수 있다.
현재 ElevenLabs는 기존 텍스트-음성 변환 파이프라인을 활용하고 있으며, 새로운 대화형 AI 제품을 위해 음성-텍스트 변환 기능을 개발 중이다. 단독 제품으로 API를 제공하지는 않지만, 향후 이를 고려하고 있는 상황이며 이는 Google, Microsoft, Amazon과 같은 대기업들의 API와 경쟁할 수 있는 기반을 마련할 수 있다. OpenAI의 실시간 대화형 API와도 경쟁하게 될 것으로 보인다. 그러나 ElevenLabs는 모델 전환 및 맞춤화 기능에서 강점을 발휘할 것이라 믿고 있다.
출처 : ElevenLabs now offers ability to build conversational AI agents