고도화된 AI 지능 평가 테스트 'ARC-AGI-2' 공개
AI 모델 대부분 고전, GPT-4.5도 겨우 1% 기록
AI의 일반 지능을 평가하기 위한 새로운 테스트가 도입됐다. Arc Prize Foundation은 최근 'ARC-AGI-2'라는 최신 지능 평가 시험을 공개하며, 현재 시점에서 고성능 AI 모델들이 여전히 인간 수준의 지능을 구현하기에는 갈 길이 멀다는 점을 보여줬다.
인간은 평균 60%, AI는 고작 1%
이번 ARC-AGI-2 테스트는 시각적 패턴을 인식하고 논리를 바탕으로 정답 격자를 생성하는 퍼즐 형식으로 설계됐다. AI 모델이 훈련되지 않은 새로운 문제에 얼마나 적응하는지를 평가하는 것이 핵심이다. 실제 실험에서 일반 인간 참가자들은 평균 60%의 정답률을 기록했지만, 최신 AI 모델의 성적은 극히 낮았다. 오픈AI의 추론 모델 o1-pro와 DeepSeek의 R1 모델은 각각 1%에서 1.3% 사이를 기록했고, 비추론형 고성능 모델인 GPT-4.5도 1%에 그쳤다.
brute force 대신 ‘효율적 추론’ 요구
이번 시험을 설계한 Arc Prize Foundation 공동 창립자 프랑수아 슈올레(François Chollet)는 이전 평가 버전인 ARC-AGI-1 대비 ARC-AGI-2가 AI의 진정한 지능을 측정하기에 높은 정확도를 제공한다고 설명했다. 그는 “이번 테스트는 단순한 연산 능력에 의존하지 않고, 패턴을 짧은 시간 내에 파악하고 효율적으로 해석하는 능력에 집중했다”고 밝혔다.
한편, 이전 테스트였던 ARC-AGI-1은 출시 후 5년간 어느 AI도 통과하지 못하다가 오픈AI의 o3 모델이 처음으로 고득점을 기록한 바 있다. 그러나 동일한 o3 모델조차 ARC-AGI-2에서는 4%에 머물렀으며, 이조차도 막대한 양의 컴퓨팅 리소스를 소모한 결과였다.
AI 연구계, 새로운 벤치마크 요구 커져
이번 테스트 공개는 기술 업계 전반에서 급격히 발전 중인 AI에 대해 보다 정밀한 진단 도구가 필요하다는 요구 속에 이루어졌다. Arc Prize Foundation 측은 ARC-AGI-2의 정확도를 85% 이상 달성하면서 비용은 최소로 유지하는 개발 대회를 개최한다고 밝혔다. 이는 단순 성능 경쟁을 넘어 AI의 효율성과 적응성 측정이 미래 경쟁력의 핵심이 될 것임을 시사한다.
이 기사에 대한 의견:
ARC-AGI-2의 도입은 현재 대표적인 AI 모델들이 인간 수준의 일반 지능에 도달하기 위해서는 아직 갈 길이 멀다는 현실을 통계적으로 보여준다. 디지털 연산력만으로 AI의 진정한 지능을 판단할 수 없다는 점에서, 앞으로는 효율성과 문제 적응 능력을 중심으로 한 평가지표의 변화가 더욱 중요한 흐름이 될 것이다. AI 발전에 있어 '더 많은 데이터, 더 큰 컴퓨팅' 전략이 한계를 드러내고 있는 만큼, 창의적이고 유연한 추론 능력 강화가 기술적 과제로 부상하고 있다.