AI, '슈퍼 마리오'로 성능 평가받는다
캘리포니아 대학교 샌디에이고의 Hao AI Lab 연구진이 인공지능(AI) 모델의 성능을 평가하기 위해 '슈퍼 마리오 브라더스'를 활용하는 실험을 진행했다. 실험 결과, Anthropic의 'Claude 3.7'이 가장 뛰어난 성능을 보였으며, 그 뒤를 'Claude 3.5'가 이었다. 반면, 구글의 'Gemini 1.5 Pro'와 오픈AI의 'GPT-4o'는 어려움을 겪었다.
게임 플레이 방식으로 AI 성능 테스트
실험에 사용된 '슈퍼 마리오 브라더스'는 1985년 출시된 원작이 아니라, 'GamingAgent'라는 프레임워크를 이용해 에뮬레이터 환경에서 실행됐다. 이를 통해 AI는 게임 화면과 기본적인 지침을 제공받으며, 파이썬 코드를 이용해 마리오를 조작하도록 설계됐다.
연구팀에 따르면, AI 모델들은 단순한 조작 이상으로 복잡한 움직임을 배우고 전략을 개발해야 했다. 특히, 단계적으로 문제를 해결하는 '추론 모델(reasoning model)'보다는 빠르게 반응하는 '비추론 모델(non-reasoning model)'이 더 좋은 성능을 보였다. 이는 실시간으로 진행되는 게임에서 의사 결정이 지연될 경우 성능이 저하되는 점을 반영한 결과다.
게임 기반 AI 벤치마크, 실효성 논란
게임은 전통적으로 AI 성능을 측정하는 방법 중 하나로 활용되어 왔다. 하지만 연구자들은 게임 플레이 능력을 AI 기술의 발전과 동일시하는 것에 대해 우려의 목소리를 내고 있다. 게임은 본질적으로 추상적이며, AI가 무한에 가까운 데이터를 학습할 수 있기 때문에 현실적인 성능 평가와 괴리가 발생할 수 있다.
AI 연구원인 안드레이 카파시는 이번 실험을 두고 "AI 평가 방식이 위기에 처했다"고 언급하며, 현재의 측정 기준이 AI 모델을 제대로 평가하는지에 대한 의문을 제기했다.
이 실험은 AI의 실시간 반응성과 전략 수립 능력을 평가하는 흥미로운 방법이다. 하지만 게임에서의 성능이 AI의 전반적인 지능이나 실용성을 대표하지 않는 만큼, 보다 다양한 벤치마킹 방식이 필요할 것으로 보인다.