현실에 가까운 음성 비서 기술…Sesame, 오픈소스 AI 모델 공개
AI 스타트업 Sesame이 인간과 더욱 유사한 대화를 구사하는 음성 비서 'Maya'를 구동하는 핵심 기술, 'CSM-1B' 모델을 공개했다. 이 모델은 10억 개의 매개변수를 바탕으로 텍스트와 오디오 데이터를 처리해 목소리를 생성하는 생성 AI 기술이다. 특히 이 모델은 Apache 2.0 라이선스에 따라 상업적 사용이 가능하도록 공개되었다.
오디오 코드를 생성하는 핵심 기술 'RVQ' 기반
CSM-1B는 'Residual Vector Quantization(RVQ, 잔여 벡터 양자화)'라는 기술을 활용해 오디오 입력값을 정교한 코드 토큰으로 변환한다. 이를 통해 소리를 디코딩하고 새로운 목소리를 생성할 수 있다. 해당 모델은 Meta의 Llama 시리즈 언어 모델을 기반으로, 오디오 디코딩 기능을 추가해 개발됐다.
Sesame은 자사의 음성 비서인 'Maya'가 이 모델의 정밀 조정된 변형을 기반으로 작동하며, 기존 음성 AI보다 훨씬 자연스러운 발화와 호흡, 심지어 발화 중의 중단까지 구현할 수 있는 점을 강조하고 있다.
특정 목소리 복제도 가능…그러나 윤리적 우려
CSM-1B는 특정 인물의 목소리를 복제하도록 설계되지는 않았지만, 다양한 유형의 목소리를 생성하는 데 충분한 성능을 지닌 것으로 평가된다. 하지만 비영어 언어에 대해서는 훈련 과정에 포함된 데이터의 편향 또는 오염으로 인해 성능이 크게 저하될 수 있다는 점은 한계로 지적되고 있다.
또한 이 모델은 실질적인 안전장치를 포함하지 않고 있어, Sesame은 개발자 및 사용자들에게 허가 없는 음성 복제나 허위정보 생성, 악의적 활용 등을 엄격히 금지할 것을 당부했다. 실제로 공개된 데모에서는 빠른 시간 내에 목소리를 복제할 수 있었고, 이는 오용 가능성에 대한 우려를 더욱 키우고 있다.
Oculus 공동 창업자가 만든 AI 기업, Sesame
Sesame은 Oculus 공동 창립자인 브렌든 이리브(Brendan Iribe)가 세운 기업으로, 최근 음성 비서 Maya의 자연스러운 표현력으로 주목을 받아 왔다. Maya 외에도 또 다른 비서인 'Miles' 역시 호흡 소리와 말의 중단 등을 구현하며 현실감 높은 대화 경험을 제공한다. 이러한 기술력에 힘입어, Sesame은 Andreessen Horowitz, Spark Capital, Matrix Partners 등 유수의 투자사로부터 투자를 유치하기도 했다.
에디터의 의견
Sesame이 공개한 CSM-1B 모델은 음성 생성 AI 기술이 사용자 경험·현실감을 넘어서 새로운 윤리 논의 지점을 향해 나아가고 있다는 점을 보여준다. 특히 누구나 접근 가능한 상업용 모델로 제공되면서, 오용 및 부작용에 대한 우려가 더욱 커질 수밖에 없다. 기술 발전과 함께 책임 있는 사용을 위한 사회적 합의 및 정책 논의가 절실한 시점이다.