Cohere, 다국어 지원 AI 모델 'Aya Vision' 출시
AI 연구기관 Cohere가 최근 다중모달 AI 모델 ‘Aya Vision’을 공개했다. 이 모델은 이미지 캡션 작성, 사진 관련 질문 답변, 텍스트 번역, 그리고 23개 주요 언어에서 요약 생성이 가능하다. Cohere는 이 모델이 연구자들이 첨단 AI 기술을 쉽게 활용할 수 있도록 돕는 중요한 진전이라고 강조했다.
다중모달 AI의 언어 간 성능 격차 해소 목표
Aya Vision은 이미지와 텍스트 데이터를 동시에 처리할 수 있는 다중모달 모델로, 기존 AI가 언어 마다 다른 성능을 보이는 문제를 해결하는 것을 목표로 한다. 두 가지 버전(Aya Vision 32B와 Aya Vision 8B)으로 제공되며, Aya Vision 32B는 특정 시각 이해 벤치마크에서 기존보다 우수한 성능을 보였다고 평가된다. Aya Vision 8B 역시 규모가 더 큰 모델들과 비교해 경쟁력을 갖춘 것으로 알려졌다.
연구자에게 무료 제공, 허깅페이스에서 이용 가능
Aya Vision의 두 가지 버전은 AI 개발 플랫폼 ‘허깅페이스(Hugging Face)’에서 이용 가능하며, 크리에이티브 커먼스(CC) 라이선스 하에 연구 목적으로 무료 제공된다. 다만, 상업적 사용은 금지된다. 이 모델은 다양한 영어 기반 데이터셋을 활용해 학습되었으며, 합성 주석(synthetic annotations)을 추가해 학습 효율성을 높였다. 이 같은 방식은 OpenAI 등 다른 기업에서도 점점 더 활용하고 있는 기법이다.
AI 성능 평가 기준 'AyaVisionBench' 도입
Cohere는 Aya Vision과 함께 새로운 벤치마크 ‘AyaVisionBench’도 발표했다. 이 벤치마크는 기존 AI 평가 방법이 실제 활용성과 정확히 연결되지 않는 문제를 해결하기 위해 설계됐다. Cohere는 이를 통해 다국어 및 실전 환경에서의 AI 모델 성능을 더욱 신뢰성 있게 검증할 수 있을 것으로 기대하고 있다.
의견
Aya Vision은 다중모달 AI의 발전을 한 단계 끌어올리는 중요한 모델로 보인다. 특히 다양한 언어에서 고품질 결과를 제공할 수 있다는 점에서 글로벌 연구자들에게 큰 도움이 될 것으로 예상된다. 또한, AI 평가 기준을 개선하려는 Cohere의 시도는 AI 연구 커뮤니티에서 긍정적인 영향을 미칠 가능성이 크다. 다만, 상업적 활용이 금지된 점은 실제 시장에서의 영향력을 다소 제한할 수도 있다.