미스트랄, 새로운 AI 콘텐츠 검열 API 출시
AI 스타트업 미스트랄(Mistral)이 새로운 콘텐츠 검열 API를 발표했다. 이 API는 미스트랄의 Le Chat 챗봇 플랫폼에 사용되는 동일한 API로, 특정 애플리케이션과 안전 기준에 맞게 조정될 수 있다. 이 API는 미스트랄 8B(Mistral 8B)라는 정교한 모델에 의해 구동되며, 영어, 프랑스어, 독일어를 포함한 다양한 언어의 텍스트를 성적, 혐오 및 차별, 폭력 및 위협, 위험하고 범죄적인 콘텐츠, 자해, 건강, 금융, 법률, 개인 식별 정보 등 9가지 범주로 분류할 수 있다.
산업과 연구에서 AI 기반 검열 시스템 주목
미스트랄 측은 최근 몇 달 동안 콘텐츠 검열 시스템에 대한 기대가 업계와 연구 커뮤니티에서 커지고 있다고 설명했다. 이런 AI 기반 검열 시스템은 다양한 애플리케이션에서 검열을 보다 확장 가능하고 견고하게 만들어 준다. 미스트랄의 콘텐츠 검열 분류기는 효과적인 안전 장치의 가장 관련 있는 정책 범주를 활용하며, 미 검증 조언 및 개인 식별 정보(PII)와 같은 모델 생성 해악을 해결함으로써 모델 안전성을 도입하고 있다.
AI 검열 시스템의 한계와 기술적 결함
이론적으로 AI 기반 검열 시스템은 유용하지만, 다른 AI 시스템을 괴롭히는 편향성과 기술적 결함에도 취약하다. 예를 들어, 아프리칸 아메리칸 버넨큘러 영어(AAVE)를 사용하는 문구는 "독성"으로 과도하게 간주되고, 장애인을 다룬 소셜 미디어 게시물 역시 일반적으로 사용되는 대중 감정과 독성 탐지 모델에 의해 더 부정적이거나 독성으로 플래그가 되는 것으로 연구됐다.
미스트랄의 성과와 미래 계획
미스트랄은 자체 검열 모델이 매우 정확하다고 주장하면서도, 여전히 발전 중임을 인정했다. 특히, Jigsaw의 Perspective API나 OpenAI의 검열 API 같은 다른 인기 검열 API와의 성능 비교를 수행하지 않았다. 미스트랄은 고객들과 협력하여 확장 가능하고 가벼우며 맞춤형 검열 도구를 구축하고 공유하고 있으며, 더 넓은 필드에서 안전 발전에 기여하기 위한 연구 커뮤니티와의 협력을 계속할 계획이다.
비용 절감 가능한 배치 API 도입
미스트랄은 또한 배치 API를 발표했으며, 이는 대량의 요청을 비동기적으로 처리하여 API를 통해 제공되는 모델의 비용을 25%까지 줄일 수 있다고 설명했다. Anthropic, OpenAI, Google 등 다른 회사들도 AI API의 배치 옵션을 제공하고 있다.
출처 : Mistral launches a moderation API