AI 모델 확장법의 한계, 새로운 돌파구 모색
기존 방법의 성과 저하 속 등장한 '테스트 타임 스케일링'
AI 창업자와 투자자들은 최근 AI 모델 확장이 새로운 단계에 접어들었다고 평가하며, 기존 방법이 점차 한계에 부딪히고 있다고 지적했다. 이러한 흐름 속에서 '테스트 타임 스케일링'(Test-Time Scaling)이라는 새로운 방법이 주목받고 있다. 이는 OpenAI의 최신 모델인 'o3'의 성능을 향상시키는 데 기여했지만, 동시에 여러 운영상의 문제를 안고 있다.
o3 모델, 뛰어난 성능으로 주목받다
ARC-AGI 벤치마크에서 이전 모델 대비 탁월한 결과 기록
OpenAI가 공개한 'o3' 모델은 일반 능력 평가에서 높은 점수를 기록하며 이전 모델을 능가했다. 특히 어려운 수학 테스트에서 25%의 성과를 내며 주목받았다. 이러한 성과는 AI 확장이 여전히 진행 중임을 보여주는 사례로 평가된다. 하지만 해당 모델은 아직 광범위한 커뮤니티의 검증을 거치지 않은 상태다.
빠른 모델 개선 속도로 본 AI 기술 발전의 속도
세 달 만에 등장한 o3, 2025년 더 빠른 발전 예상
AI 전문가들은 OpenAI의 o3 모델 출시가 불과 세 달 전 발표된 o1 모델의 뒤를 이어 급격한 성능 개선을 보여주는 사례라고 분석했다. OpenAI 모델 개발의 핵심 인물 중 하나인 노암 브라운(Noam Brown)은 이 같은 속도를 강조했으며, 다른 전문가들 또한 2025년에는 AI 발전 속도가 더욱 가속화될 것으로 예상하고 있다.
'테스트 타임 스케일링'의 잠재력과 한계
고성능 구현 가능하나 높은 운영 비용 문제 드러나
테스트 타임 스케일링은 AI 모델이 추론(Inference) 단계에서 더 많은 컴퓨팅 자원을 사용하는 방식을 의미한다. 이를 통해 모델 성능을 높일 수 있지만, 운영 비용이 급격히 증가하는 문제도 동반된다. 실제로 o3 모델의 고성능 버전은 이전 모델 대비 훨씬 많은 컴퓨팅 자원을 소모했다.
높은 비용에 따른 실용성의 한계
자원 집약적인 o3 모델, 제한적인 초기 활용 가능성
ARC-AGI 벤치마크 창시자인 프랑수아 숄레(François Chollet)는 o3 모델의 개선을 인정하면서도 여전히 일반 인공지능(AGI)에는 미치지 못하며, 기본적인 작업에서도 어려움을 겪고 있다고 밝혔다. 또한, o3의 높은 비용은 실질적인 응용 가능성을 제한할 수 있음을 지적했다. 초기에는 대규모 자원을 보유한 기관만이 이를 활용할 가능성이 크다.
높은 비용 구조에 따른 대안 모색
AI 추론용 칩 개발 및 구독 모델 통해 효율성 개선 시도
OpenAI는 o3의 증가한 운영 비용을 수용하기 위해 고사양 구독 모델을 검토 중인 것으로 알려졌다. 또한, 테스트 타임 스케일링 기술의 발전과 AI 추론 칩의 개발은 효율성을 더욱 높일 잠재력을 지니고 있다. 하지만 이번 사례는 여전히 AI 확장의 과제와 이와 관련된 재정적 부담을 재확인시켰다.