AI 벤치마크 논쟁, OpenAI와 xAI의 충돌
AI 모델의 성능을 측정하는 벤치마크 및 그 결과 보고 방식에 대한 논란이 점점 커지고 있다. 최근 OpenAI의 한 직원이 엘론 머스크가 설립한 AI 기업 xAI가 자사의 AI 모델 'Grok 3'의 벤치마크 결과를 오해의 소지가 있게 발표했다고 주장하면서 논란이 불거졌다. 이에 대해 xAI 공동 창립자인 이고르 바부쉬킨이 나서서 반박했다.
xAI, Grok 3 성능 강조… 그러나 의문점 제기
xAI는 최근 Grok 3의 수학적 문제 해결 능력을 평가하는 ‘AIME 2025’ 테스트 결과를 공개했다. AIME는 AI 모델의 수학적 사고력을 평가하는 데 자주 사용되지만, 벤치마크로서의 신뢰성에 대한 의문도 존재해왔다. xAI가 발표한 그래프에서는 'Grok 3 Reasoning Beta'와 'Grok 3 mini Reasoning' 모델이 OpenAI의 'o3-mini-high' 모델을 능가하는 성과를 냈다고 표시되었다.
그러나 OpenAI 측은 xAI의 그래프가 "cons@64" 점수를 누락했다고 지적했다. 이는 동일한 문제를 64번 시도한 후 가장 자주 생성된 답변을 반영하는 방식으로, 결과적으론 모델의 실제 성능보다 점수가 더 높아 보일 가능성이 있다. OpenAI 연구진에 따르면, xAI의 그래프는 Grok 3 모델이 "@1" 기준(첫 번째 응답 기반 점수)에서는 o3-mini-high보다 낮은 성능을 기록한 사실을 언급하지 않았다.
벤치마크 신뢰성 문제… AI 평가 방식 재검토 필요
xAI는 Grok 3를 "세계에서 가장 스마트한 AI"라고 홍보하고 있지만, OpenAI 관계자들은 이러한 벤치마크 방식이 소비자들에게 혼란을 줄 수 있다고 우려하고 있다. 바부쉬킨은 이에 반박하며, OpenAI 역시 과거에 비슷한 방식으로 벤치마크 결과를 비교한 사례가 있다고 주장했다.
한편, 독립 연구자는 cons@64 기준에서 여러 AI 모델의 성능을 비교한 보다 포괄적인 그래프를 공개하며 논란을 정리하려 했다. AI 연구원 네이선 램버트는 현재의 AI 벤치마크가 실제 AI 모델의 능력을 올바르게 반영하는지에 대한 근본적인 문제가 있다고 지적했다. 그는 특히 각 모델이 최고 성능을 내기 위해 소모하는 연산 비용과 재정적 비용 등이 정확히 공개되지 않는 점을 문제 삼았다.
AI 성능 평가 기준, 새로운 접근 필요할까?
이번 논란은 AI 벤치마크 평가의 투명성을 높이고, 성능 비교 과정에서 정보가 왜곡되지 않도록 새로운 기준이 필요하다는 점을 시사한다. AI 모델의 객관적인 성능 비교를 위해서는 벤치마크의 신뢰성을 높이는 것이 필수적이며, 기업 간의 경쟁이 사용자의 혼란을 초래하지 않도록 조치를 취해야 할 것이다.