DeepSeek, 가장 강력한 AI 모델 중 하나로 주목
AI 기업 DeepSeek이 새로운 AI 모델, DeepSeek V3를 공개하며 기술 업계의 이목을 끌고 있다. 이 모델은 상업적 용도를 포함한 다양한 응용 프로그램에서 활용 가능하며, 무료로 다운로드 및 수정이 가능한 허가 라이선스 하에 출시됐다.
다양한 텍스트 기반 작업에서 우수한 성능
DeepSeek V3는 코딩, 번역, 에세이 작성, 이메일 작성 등 다방면에 활용될 수 있는 텍스트 기반 작업 처리 능력을 보유하고 있다. 기업 내부의 벤치마크 테스트 결과, 이 모델은 기존 '오픈(Open)' AI 모델과 클로즈드(Closed) AI 모델보다도 뛰어난 성능을 입증했다.
특히, 프로그래밍 대회 플랫폼인 Codeforces의 일부 코딩 대회에서 Meta의 Llama 3.1 405B, OpenAI의 GPT-4o, Alibaba의 Qwen 2.5 72B 등 경쟁 모델들을 능가하며 두각을 나타냈다. 뿐만 아니라, 기존 코드의 통합 또는 새로운 코드 작성에 필요한 능력을 평가하는 Aider Polyglot 테스트에서도 탁월한 성과를 보여주었다.
대규모 데이터와 매개변수로 강화된 성능
DeepSeek V3는 총 14.8조 개의 고품질 토큰으로 학습되었으며, 무려 6850억 개의 매개변수를 보유하고 있다. 이는 Meta의 Llama 3.1 405B보다 약 1.6배 많은 수준이다. 매개변수의 규모는 모델의 성능과 직결되지만, 대규모 모델의 실행에는 고사양의 하드웨어가 요구된다.
DeepSeek는 이번 모델 훈련을 위해 2048대의 Nvidia H800 GPU를 2개월 동안 가동했으며, 약 550만 달러의 비용이 투입되었다고 밝혔다. 이러한 훈련 방식은 모델의 기술적 우수성을 보여주는 동시에, 고급 GPU 서버가 없으면 최적화되지 않은 상태에서는 적절한 속도로 실행하기 어렵다는 기술적 한계도 지적된다.
한계와 추가 경쟁력을 높이기 위한 노력
하지만 DeepSeek V3는 모든 주제에 대해 균일한 성능을 보여주지는 않는다. 일부 정치적으로 민감한 주제, 예컨대 톈안먼(Tiananmen Square) 사태와 같은 질문에는 응답하지 않는 제한점이 있다.
DeepSeek는 이러한 단점을 극복하려는 노력의 일환으로 최근 OpenAI의 o1 '추론' 모델에 대응하기 위해 DeepSeek-R1을 공개했다. 이 모델의 개발은 High-Flyer Capital Management의 지원 하에 이루어졌다. 이 외에도, ByteDance, Baidu, Alibaba와 같은 경쟁업체들이 가격 경쟁력을 강화하도록 압박을 가하는 등 DeepSeek의 존재감은 산업 전반에 걸쳐 크게 확대되고 있다.
오픈 소스 철학과 미래 전망
DeepSeek의 대표 Liang Wenfeng은 오픈 소스 프로젝트를 '문화적 행위'로 칭하며, 클로즈드 소스 접근 방식을 '일시적인' 장애물로 규정했다. 또한 High-Flyer가 현재 10,000대의 Nvidia A100 GPU로 구성된 서버 클러스터를 구축 중이라고 밝혀 지속적인 기술 투자와 발전 가능성을 예고했다.
DeepSeek V3는 기술적으로는 물론, AI의 오픈 소스 접근법을 둘러싼 철학적인 논쟁에서도 주목받는 모델로 자리매김할 전망이다.