고성능 AI 모델, '추론 능력' 강조하지만 검증 비용 급증
최근 AI 연구소들이 내세우는 '추론 기반' 인공지능 모델들이 과학, 수학 등 특정 분야에서 더 뛰어난 성능을 발휘한다고 주장하고 있지만, 이들의 실제 성능을 객관적으로 확인하기엔 여전히 높은 진입 장벽이 존재한다. 특히 독립적인 벤치마크(성능 평가) 비용이 과도하게 높아 검증이 어려운 상황이다.
OpenAI, 고성능 모델 벤치마크 비용만 수백만 원
데이터 분석 회사 Artificial Analysis에 따르면, OpenAI의 추론형 AI 모델인 'o1'의 성능을 평가하는 데 드는 비용은 약 2,767.05달러(한화 약 370만 원)에 달한다. 이 테스트는 7개의 주요 AI 벤치마크를 기반으로 하며, 이는 일반 비추론형 모델과 비교해 약 두 배의 비용이다.
Anthropic의 하이브리드 추론 모델인 'Claude 3.7 Sonnet'도 평가 비용이 약 1,485.35달러로 결코 낮지 않다. 이에 비해 상대적으로 저렴한 OpenAI의 'o1-mini'는 141.22달러로 비용 부담이 덜하지만, 전체적으로 추론형 모델은 전반적으로 비싼 경향을 보인다.
토큰 수 증가로 뛴 비용, AI 모델 과금 방식이 한몫
비용 상승의 주요 원인은 모델이 사용하는 토큰 수 증가 때문이다. 예를 들어, OpenAI의 'o1' 모델은 테스트 중 4,400만 개가 넘는 토큰을 생성했는데, 이는 GPT-4o가 생성한 양의 8배에 해당한다. 대부분의 AI 기업은 생성된 토큰 수에 따라 요금을 부과하기 때문에, 토큰 수가 많아질수록 비용도 비례해 높아진다.
현대 벤치마크 테스트는 단순히 정답을 맞히는 수준을 넘어, 복잡한 사고 과정을 요구하는 다단계 문제를 점점 더 많이 포함하고 있어 평균 토큰 사용량도 증가하는 추세다. 게다가 최근에는 토큰 당 단가 자체도 오르고 있다. Anthropic의 'Claude 3 Opus'는 출시 당시 백만 개의 출력 토큰당 75달러를 책정한 바 있다.
'검증 가능한 과학' 위해서는 보다 투명한 평가 필요
일부 AI 기업들은 연구자들이 모델을 시험해 볼 수 있도록 무료 또는 일정 부분 보조된 접근을 허용하기도 하지만, 전문가들은 이러한 방식이 성능 검증의 객관성을 훼손할 수 있다고 지적한다. 동일한 모델을 동일한 조건에서 다시 평가할 수 없다면, 결과의 과학적 타당성에 의문이 생기기 때문이다.
이 기사에 대한 의견:
AI 추론 모델들이 기존보다 더 높은 수준의 사고능력을 확보했다고 주장하는 것은 고무적인 발전이지만, 그 능력을 과학적으로 증명하는 데 드는 비용 장벽은 커다란 문제다. 특히 독립적인 외부 기관이나 연구자가 평가를 시도하기 어려운 구조는 기술의 신뢰도 구축에 걸림돌이 될 수 있다. 향후 AI 업계가 표준화된 벤치마크 시스템과 함께 무료 또는 저렴한 비용으로 평가할 수 있는 방식이 도입된다면, 기술 신뢰성 향상에 큰 도움이 될 것이다.