구글·버클리 연구진, AI 성능 높이는 '추론 시간 탐색' 제안
전문가들 "실제 추론 능력 향상엔 한계" 지적
AI 연구 분야에 새로운 확장법(scaling law)이 등장했다는 주장이 제기됐지만, 전문가들은 이에 대해 신중한 입장을 보이고 있다.
AI 확장법이란, 인공지능 모델의 성능이 훈련에 사용되는 데이터와 컴퓨팅 자원의 양에 따라 어떻게 향상되는지를 설명하는 일종의 규칙이다. 지금까지는 대규모 데이터셋을 활용해 모델을 사전(pre-training) 단계에서 훈련하는 것이 주류였다. 그러나 최근에는 사후 훈련(post-training)이나 테스트 단계(test-time)의 컴퓨팅 자원 활용도 성능을 높이는 방식으로 주목받고 있다.
이러한 흐름 속에서 최근 구글과 UC 버클리 연구진은 ‘추론 시간 탐색(inference-time search)’이라는 네 번째 확장법을 제안했다. 이는 AI가 질문에 대해 다양한 답변을 동시에 생성하고, 그 중에서 가장 적절한 답을 선택하는 방식이다. 연구진은 이 방식이 기존 모델, 예컨대 구글의 제미니(Gemini) 1.5 프로와 같은 최신 언어 모델의 성능을 향상시킬 수 있다고 주장하고 있다.
하지만 이 기술의 실효성에 대해선 전문가들의 의견이 엇갈린다.
“좋은 평가 함수 없이는 효과 한정적”
AI 연구자인 매튜 구즈디얼(Matthew Guzdial)은 “이 접근법은 정답의 적절성을 판단할 수 있는 ‘평가 함수(evaluation function)’가 있어야 효과적”이라며, 실생활의 복잡한 질의에는 이 방식이 적용되기 어렵다고 지적했다.
이에 대해 해당 연구의 공동 저자인 에릭 자오(Eric Zhao)는 “이번 연구는 평가 함수가 없는 문제를 대상으로 한다”며 “모델이 스스로 답변을 검증할 수 있는 메커니즘을 마련하려는 시도”라고 반박했다.
그러나 또 다른 AI 전문가 마이크 쿡(Mike Cook)은 “추론 시간 탐색은 실제로 모델의 추론 능력을 향상시키는 것은 아니다”라며, “단지 기존 모델의 한계를 보완하는 기법에 불과하다”고 평가했다.
AI 확장법, 여전히 진화 중
이번 논란은 AI가 보다 복잡한 추론 능력을 갖추기 위한 다양한 시도들이 여전히 진행 중이라는 것을 보여준다. 현 단계에서는 컴퓨팅 자원 활용을 통한 성능 향상보다, 모델 자체의 ‘이해 능력’ 또는 ‘추론 구조’를 어떻게 발전시킬 것인가가 AI 산업의 주요 과제로 부상하고 있다.
이번 연구는 AI 모델의 성능을 개선하는 새로운 접근을 제시했지만, 그 가능성과 한계를 동시에 보여줬다. 특히 언어 모델이 단순 명령을 넘어서 복잡한 논리 추론을 수행하기 위한 방법론에 대한 논의가 앞으로 더욱 심화될 것으로 보인다. 실질적인 ‘이해’와 ‘판단’ 능력을 갖춘 AI 개발을 위해서는 단순한 계산 자원 확장만으로는 충분하지 않다는 점에서, 이 연구는 중요한 화두를 던지고 있다.