윌 스미스와 스파게티: AI 성능 평가의 새로운 트렌드
최근 한 회사가 AI 영상 생성기를 출시한 이후, 배우 윌 스미스가 스파게티를 먹는 모습을 담은 영상 제작이 하나의 밈이자 테스트 기준으로 자리 잡았다. 이 영상은 생성기의 능력을 평가하기 위한 독특한 방식으로 활용되고 있으며, 심지어 윌 스미스 본인도 이 트렌드를 자신의 인스타그램에서 패러디하기도 했다.
2024년 AI 커뮤니티에서 확산된 독특한 기준
윌 스미스와 파스타 관련 밈은 AI 커뮤니티에서 등장한 여러 이색적인 “비공식” 벤치마크 중 하나에 불과하다. 예를 들어, 16세 개발자는 AI가 마인크래프트에서 건축물을 설계하도록 테스트하는 앱을 개발했고, 영국의 또 다른 프로그래머는 AI가 피셔너리(Pictionary)나 커넥트4(Connect 4) 같은 게임에서 서로 경쟁하도록 설계한 플랫폼을 만들었다.
대중과 거리가 먼 기존 AI 벤치마크
기존의 AI 성능 측정 기준은 종종 수학 경시대회 문제나 박사 학위 수준의 복잡한 문제를 다루며 일반 대중에게는 이해하기 어려운 경우가 많았다. 그러나 대부분의 사람들이 AI를 활용하는 방식은 이메일 답변이나 간단한 정보 검색 같은 보다 실용적인 활동에 초점이 맞춰져 있다.
대중적 벤치마크의 등장과 한계
공개적으로 AI 성능을 평가할 수 있는 ‘챗봇 아레나(Chatbot Arena)’ 같은 플랫폼도 존재하지만, 이를 평가하는 사람들은 주로 AI나 기술 업계에 종사하는 사람들로 편중되는 경향이 있다. 동시에, 이는 AI의 성능을 평균적인 인간의 능력과 비교하는 데 어려움을 겪는다.
대중적이고 재미있는 새로운 기준의 가능성
커넥트4, 마인크래프트, 스파게티를 먹는 윌 스미스 같은 이색적인 벤치마크는 과학적 엄밀함에서 다소 부족할 수 있지만, 대중에게는 이해하기 쉽고 흥미를 유발하는 특징이 있다. 예를 들어, AI가 마인크래프트에서 건축물을 설계하는 모습을 보는 것은 사람들에게 창의적인 즐거움을 안겨준다.
지속되는 효과와 논의
AI 커뮤니티는 현재 가장 효과적인 성능 측정 방법에 대해 계속 논의 중이다. 그러나 이러한 독창적이고 비공식적인 벤치마크는 사람들의 관심을 끌고, AI 기술을 대중화하는 데 기여하는 요소로 자리 잡을 가능성이 높아 보인다.