고등학생, 마인크래프트로 AI 성능 평가하는 웹사이트 개발
AI 모델의 창의력, 게이머가 직접 평가하는 시대
미국의 한 고등학생이 마인크래프트 게임을 활용한 인공지능(AI) 성능 평가 플랫폼 ‘MC-Bench’를 개발해 화제가 되고 있다. 이 플랫폼은 사용자들이 다양한 AI 모델에게 특정 주제에 따른 마인크래프트 건축을 요청하고, 결과물을 비교해 어떤 AI가 더 뛰어난 표현을 했는지 투표하는 방식으로 운영된다.
마인크래프트 친숙함 활용한 창의력 비교
익숙한 게임 세계에서 AI 수준 평가
MC-Bench는 마인크래프트가 가진 친숙한 시각적 요소와 게임성을 활용해, 일반 사용자들이 어렵지 않게 AI의 창의적 결과물을 평가할 수 있도록 설계됐다. 이 웹사이트는 사용자들이 건축 작품을 본 뒤 더 잘 만든 쪽에 투표하고 나서야 창작한 AI 모델의 이름을 확인할 수 있어 편견 없는 평가가 가능하다.
이 플랫폼을 만든 사람은 미국 고등학교 12학년에 재학 중인 아디 싱(Adi Singh)으로, 그는 “마인크래프트는 많은 사람들이 이해하기 쉬운 방식으로 AI의 수준을 살펴볼 수 있는 도구”라며 AI 기술 발전의 과정을 쉽게 시각화할 수 있다고 밝혔다.
구글·오픈AI 등 주요 AI 모델도 포함
플랫폼 성장 가능성 주목
현재 MC-Bench에는 자원봉사자 8명이 함께 참여하고 있으며, 구글(Google), 오픈AI(OpenAI), 앤트로픽(Anthropic), 알리바바(Alibaba) 등의 AI 모델 제품들이 활용되고 있다. 이들 기업과 직접적인 제휴 관계는 없지만, 해당 AI 기술이 플랫폼에서 비교 평가되는 셈이다.
초기에는 간단한 건축 작업 중심으로 운영되지만, 싱은 향후 더 복잡한 작업들까지 확장시킬 계획이라고 밝혔다. 마인크래프트 외에도 여러 게임이 AI 성능 벤치마크에 활용되어 왔지만, MC-Bench는 코드 중심의 전통적 벤치마크와 달리 시각적인 결과물을 중심으로 AI의 표현 능력을 실제로 확인할 수 있다는 강점을 가진다는 평가다.
AI 경쟁 순위표까지 제공
기업에도 의미 있는 데이터 될 듯
MC-Bench에는 다양한 AI 모델의 성과를 순위로 제공하는 리더보드 기능이 포함되어 있어 사용자뿐 아니라 AI 개발사들에게도 유의미한 피드백을 제공할 수 있을 것으로 보인다. 싱은 “기존 텍스트 기반 벤치마크보다 시각적 비교가 더 직관적인 통찰을 제공할 수 있으며, 기업들에도 기술 발전에 대한 새로운 기준이 될 수 있다”고 말했다.
의견
MC-Bench는 게임이라는 친숙한 장르를 통해 일반 사용자들도 AI의 창의력 수준을 이해하고 평가할 수 있게 만드는 참신한 시도다. 특히 마인크래프트 특유의 시각적 요소를 통해 기술적인 지식 없이도 AI 성과를 비교할 수 있는 접근 방식이 매우 인상 깊다. 앞으로 플랫폼이 발전하면서 실제 산업에서의 활용 가능성도 높아질 것으로 보이며, 교육용 툴로서의 확장도 기대할 수 있다.