딥 코지토, 차세대 초거대 언어 모델 공개
미국 샌프란시스코에 본사를 둔 딥 코지토(Deep Cogito)가 새로운 초대형 언어 모델(LLM) 라인업을 공개했다. 이 회사는 3억, 8억, 14억, 32억, 70억 파라미터 규모의 여러 버전을 선보이며, 현재 공개된 동급 경쟁 모델들을 대부분 능가한다고 주장했다. 딥 코지토는 "범용 초지능(general superintelligence) 구축"을 목표로 삼고 있으며, 이번 발표가 이에 한 걸음 더 다가선 결과라고 설명했다. 특히 70억 파라미터 모델은 최근 출시된 Llama 4 109B Mixture-of-Experts(MoE) 모델을 능가하는 성능을 보였다.
새로운 학습 방식 'IDA' 도입
이번 모델 개발의 핵심에는 '반복적 증폭 및 압축(Iterated Distillation and Amplification, IDA)'이라는 새로운 학습 기법이 있다. 딥 코지토에 따르면 IDA는 "반복적 자기 개선을 통해 초지능 정렬을 확장 가능하고 효율적으로 만드는 전략"이다. 기존 LLM 학습 방식은 감독자(오버시어) 모델의 한계에 지배받기 쉬웠는데, IDA는 이를 극복하여 모델이 연산 자원에 따라 보다 직접적으로 지능을 높일 수 있게 한다.
IDA는 '증폭(Amplification)'과 '압축(Distillation)'을 반복하는 구조로 작동한다. 증폭 과정에서는 추가적인 계산을 통해 모델이 더 나은 해답이나 능력을 도출하고, 압축 과정에서는 이 능력을 모델 파라미터에 내재화한다. 이를 통해 지능이 자연스럽게 스스로 향상되는 '긍정적 피드백 루프'를 형성한다.
딥 코지토는 IDA가 매우 효율적이라고 강조하며, 소규모 개발팀이 약 75일 만에 이번 모델을 완성했다고 밝혔다. 또한, 기존의 RLHF(Reinforcement Learning from Human Feedback) 방식이나 대형 모델 디스틸레이션 방식에 비해 IDA가 훨씬 확장성이 뛰어나다고 설명했다.
인상적인 성능…기존 최고 모델 능가
딥 코지토는 자사의 70B 모델이 Llama 3.3 70B(405억 파라미터 모델에서 압축)와 Llama 4 Scout 109B(2조 파라미터 모델에서 압축)를 모두 능가했다고 밝혔다. 공개된 벤치마크 결과에 따르면, 다양한 기준(MMLU, MMLU-Pro, ARC, GSM8K, MATH 등)과 파라미터 크기(3B, 8B, 14B, 32B, 70B)에서 Cogito 모델은 Llama 3.1/3.2/3.3 및 Qwen 2.5보다 특히 추론(reasoning) 모드에서 두드러진 성능 향상을 보였다.
예를 들어, 70B 모델은 MMLU 표준 모드에서 91.73%의 점수를 기록해 Llama 3.3 70B 대비 6.40%포인트 높은 성과를 얻었다. 생각(thinking) 모드에서도 91.00%를 기록하며 Deepseek R1 Distill 70B를 4.40%포인트 능가했다. 실시간 평가인 Livebench에서도 향상된 스코어를 보여줬다.
아키텍처 및 기능 특징
이번 Cogito 모델들은 Llama와 Qwen 체크포인트를 기반으로 개발됐으며, 코딩, 함수 호출, 에이전트 구축 등 다양한 활용도에 최적화되어 있다. 특히 각 모델은 사용자가 선택할 수 있는 이중 기능을 제공한다. 즉, 일반 응답(Standard mode)이나 응답 전 사고 과정을 거치는 추론 모드(Reasoning mode) 중 선택 가능하다. 이는 Claude 3.5 등 최신 모델이 보여준 형태와 비슷하다.
다만 딥 코지토 측은 사용자의 빠른 응답 선호도를 반영해 지나치게 긴 사고 체인(Long Reasoning Chain)은 최적화하지 않았다고 밝혔다.
향후 계획…더 큰 모델도 공개 예정
딥 코지토는 이번 브랜드를 '프리뷰(preview)' 버전으로 분류하면서, 아직 스케일링 곡선 초기에 있다고 덧붙였다. 향후 기존 크기의 체크포인트를 더욱 개선해 공개할 예정이며, 109B, 400B, 671B 규모의 거대 MoE 모델도 수주 내로 이어서 발표할 계획이다. 모든 향후 모델은 오픈 소스로 제공될 예정이다.
기사에 대한 의견
딥 코지토의 이번 발표는 초거대 AI 모델 개발 경쟁에서 주목할 만한 분수령이 될 수 있다고 본다. 특히 IDA라는 새로운 학습방식은 기존 LLM 학습 패러다임의 한계를 벗어날 수 있는 가능성을 보여준다는 점에서 의미가 크다. 다만 벤치마크 성능을 넘어 실제 산업 및 부문별 적용에서 얼마나 우수성을 입증할 수 있을지는 시간이 필요할 것으로 보인다. 향후 공개될 초대형 MoE 모델들이 어떤 변화를 가져올지 계속 주목할 필요가 있다.