알리바바, Qwen 2.5-Max로 최신 AI 기술 도약 선언
고급 사전 학습과 미세 조정을 통해 새로운 성과
알리바바가 새롭게 선보인 대규모 AI 모델인 Qwen 2.5-Max가 최신 벤치마크 테스트에서 주요 경쟁 모델을 능가하며 주목받고 있다. 이 모델은 Mixture-of-Experts(MoE) 구조를 반영하여 20조 개 이상의 데이터 토큰으로 사전 학습되었으며, Supervised Fine-Tuning(SFT)과 Human Feedback 기반 강화 학습(RLHF)을 통해 정교하게 조율됐다.
Qwen 2.5-Max, 주요 성과 지표에서 경쟁 모델 압도
AI의 문제 해결 능력과 코드 작성 능력에 강점
알리바바에 따르면 Qwen 2.5-Max는 Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond와 같은 주요 벤치마크에서 DeepSeek V3를 뛰어넘는 성능을 보였다. 또한 대학 수준의 문제 해결력을 측정하는 MMLU-Pro에서도 경쟁력 있는 결과를 기록하며 Claude-3.5-Sonnet, GPT-4o 등 선도적인 AI 모델들과 어깨를 나란히 했다.
특히 이 모델은 대화와 프로그래밍 같은 다운스트림 작업에 특화된 기능을 강화함으로써, 실제 응용 환경에서도 강력한 성능을 발휘할 것으로 기대된다.
공개 모델 간 비교에서도 두각
DeepSeek V3 및 Llama-3.1-405B 등과의 경쟁 우위
Qwen 2.5-Max는 사유 모델인 GPT-4o와 Claude-3.5-Sonnet이 아닌, 공개된 DeepSeek V3, Llama-3.1-405B 등과의 직접적인 비교에서도 우수한 성과를 보였다. 알리바바는 "우리는 대부분의 벤치마크에서 뛰어난 결과를 보여줬다"며 Qwen 2.5-Max의 후속 버전이 더욱 높은 성능을 구현할 것으로 전망했다.
사용자 접근성 강화
Qwen Chat 플랫폼 통합 및 API 제공으로 실용성 확대
이 모델은 현재 알리바바 클라우드 플랫폼에서 "qwen-max-2025-01-25"라는 이름으로 API 형태로 제공되며, OpenAI 생태계와의 호환성을 통해 기존 프로젝트와의 통합 또한 원활하다. 사용자들은 Qwen Chat 플랫폼을 통해 직접 모델과의 상호작용도 가능하다.
AI 모델의 지평을 넓히다
새로운 강화 학습 기법으로 추후 성능 진화 예상
앞으로 알리바바는 더욱 진보된 강화 학습 기술을 도입해 Qwen 모델이 복잡한 문제 해결에 있어 인간을 넘어서는 지적 능력을 획득할 수 있도록 연구를 이어갈 계획이다. AI 시스템의 사고와 추론 능력을 보다 근본적으로 향상시키려는 이러한 접근은, AI 발전이 향후 다양한 산업 및 연구 분야에 미칠 영향을 암시하고 있다.
의견
Qwen 2.5-Max는 기술적 세부 사항과 실제 응용 가능성에서 모두 눈에 띄는 진전을 보여준다. 공개와 상용화를 적절히 병행한 전략으로 사용자 접근성을 높인 점도 긍정적이다. 근본적 사고 능력 향상에 중점을 둔 알리바바의 접근법은 AI의 진화 방향성을 제시하며, 향후 관련 기술 발전에 큰 영향을 미칠 가능성이 높아 보인다.