알리바바, 혁신적인 멀티모달 AI 모델 'Qwen2.5-VL' 공개
알리바바 그룹은 강력한 성능을 자랑하는 새로운 AI 모델 'Qwen2.5-VL' 패밀리를 발표했습니다. 이 모델은 텍스트와 이미지를 동시에 분석하며, 기존 AI 기술보다 진일보한 결과를 보여줍니다. 특히 비디오 클립 이해, 이미지 상의 객체 세기, 다양한 문서 파싱 등 고급 멀티모달 작업을 수행할 수 있습니다.
GPT-4 등 경쟁 모델 뛰어넘는 성능
알리바바 Qwen 팀의 발표에 따르면 Qwen2.5-VL은 OpenAI의 GPT-4와 Google의 Gemini 2.0 등 주요 경쟁 모델을 영상 이해, 문서 분석, 수학, 그리고 질문-응답 태스크에서 능가하는 성능을 보였다고 합니다. 이는 알리바바 AI 연구 개발의 중요한 진전으로 평가받고 있습니다.
차트 분석부터 복잡한 비디오 이해까지
Qwen2.5-VL의 대표적인 기능은 차트 및 그래프 분석, 청구서 및 양식의 정보 추출, 장시간 비디오의 맥락 파악 등입니다. 더불어 영화 및 TV 시리즈의 지적재산권(IP)을 식별할 수 있어, 모델이 저작권 데이터 기반 훈련을 받았음을 시사합니다.
PC 및 모바일 소프트웨어까지 제어 가능
놀랍게도 Qwen2.5-VL은 사용자 장치의 소프트웨어를 직접 제어하는 기능을 가지고 있습니다. 예를 들어, 모바일 기기에서 Booking.com 앱을 실행하고 비행기 예약 과정을 실시간으로 처리하는 모습을 시연했습니다. 이는 디지털 비서 역할을 수행하는 AI에 있어 새로운 가능성을 열었습니다.
민감한 주제 제한 및 라이선싱 조건
심지어 Qwen2.5-VL에는 민감한 주제를 다루지 않도록 제한이 걸려 있습니다. 또한, 이 모델은 세 가지 버전으로 제공됩니다. 'Qwen2.5-VL-3B'와 '7B' 모델은 퍼미시브 라이선스 하에 공개되지만, 플래그십 모델인 'Qwen2.5-VL-72B'는 알리바바의 맞춤형 라이선스가 적용됩니다. 특히 월 1억 명 이상의 활성 사용자를 보유한 기업은 이 모델을 상업적으로 사용하려면 별도의 허가를 받아야 합니다.
의견:
Qwen2.5-VL은 텍스트와 이미지를 넘나드는 멀티모달 AI의 발전을 보여주며, 특히 SW 제어 능력과 뛰어난 데이터 분석 기능으로 주목받습니다. 그러나 민감한 주제 제한 및 엄격한 라이선싱은 다양한 활용에 제약이 있을 수 있어 보완이 필요해 보입니다.