구글 AI, 포켓몬 플레이로 클로드 모델 능가? 진짜는 따로 있었다
최근 소셜미디어 X(옛 트위터)에서 구글의 최신 인공지능 모델 '젬지니(Gemini)'가 게임 플레이에서 앤트로픽(Anthropic)의 '클로드(Claude)'를 능가했다는 게시글이 화제가 됐다. 해당 게시글에 따르면, 젬지니는 포켓몬 오리지널 삼부작 중 한 게임에서 팬들이 익숙한 '라벤더 타운'까지 진입했지만, 클로드는 아직 '마운트 문'에 머물러 있는 상태였다.
젬지니만의 특수 기능, 공정한 비교 맞을까
하지만 곧이어 여러 온라인 커뮤니티에서 사실관계를 지적하는 목소리가 나왔다. 특히 레딧 사용자들은 젬지니가 공정한 조건에서 플레이하고 있지 않았다는 점을 지적했다. 젬지니의 게임 스트리밍을 관리하는 개발자가 특별히 제작한 미니맵 덕분에, 젬지니는 스크린샷을 통해 게임 상황을 분석할 필요 없이 타일 단위로 위치를 파악할 수 있었다. 결과적으로 이는 게임 진행에 큰 우위를 제공했다는 평가다.
AI 벤치마크 기준, 세팅에 따라 천차만별
포켓몬 게임은 진지한 AI 성능 벤치마크로 보기 어렵지만, 이 사건은 인공지능 평가가 구현 방식에 따라 얼마나 달라질 수 있는지를 잘 보여준다. 실제로 AI 성능 평가에서 흔히 사용되는 SWE-bench Verified라는 코딩 능력 테스트에서도 유사한 예가 있다. 앤트로픽은 최근 자사의 클로드 3.7 소넷 모델이 기본 설정에서는 62.3% 정확도를 기록했지만, 자체 커스터마이징한 코드 프레임워크(scaffold)를 사용했을 땐 정확도가 70.3%로 상승했다고 발표했다.
맞춤형 설정에 울고 웃는 AI 모델 경쟁
이러한 현상은 메타(Meta)의 새로운 모델 '라마 4 매버릭(Llama 4 Maverick)'에서도 발견된다. 메타는 이 모델을 특정 벤치마크(LM Arena)에 최적화되도록 미세조정했으며, 기본 상태의 모델보다 현저히 높은 점수를 기록했다. 이는 특정 AI가 벤치마크에 최적화되도록 맞춤 설정을 거치면서 실제 능력을 객관적으로 비교하기 더욱 어려워졌다는 의미다.
일관성 없는 AI 벤치마크, 비교 신중해야
결국 AI 벤치마크 자체가 완벽한 성과 측정 도구가 아닌 상황에서, 커스터마이징과 비표준화된 환경은 결과를 더욱 혼란스럽게 만들 수 있다. 앞으로도 새로운 AI 모델이 출시될 때마다 현명하고 균형 잡힌 평가를 내리기란 점점 더 어려워질 것으로 보인다.
🗣️ 의견
AI 모델을 비교 평가하는 데 있어서 ‘상황 맞춤형 설정’이 얼마나 큰 영향을 주는지 이 사례는 잘 보여준다. 기술 발전의 속도를 감안했을 때, 오히려 정해진 벤치마크보다 실제 사용 사례를 놓고 평가하는 ‘맥락 중심의 비교’ 방식이 더 중요하게 여겨질 수도 있을 것이다. AI 모델의 실력을 평가할 때는 다양한 조건과 사용 환경을 고려한 총체적인 접근이 필요하다.