AI 일반 지능 테스트, 한계와 도전 과제 드러나
2019년 프랑수아 숄레가 개발한 'ARC-AGI'라는 인공지능 테스트가 최근 주목받고 있습니다. 이 테스트는 인공지능(AI)이 학습된 데이터 외의 새로운 기술을 얼마나 습득할 수 있는지를 평가합니다. 숄레는 ARC-AGI가 AI 일반 지능(GAI: General Artificial Intelligence)의 발전 정도를 측정하는 유일한 지표라고 주장합니다.
ARC-AGI 테스트, 일부 성과에도 여전히 부족
그동안 ARC-AGI에서 최고의 성과를 거둔 AI는 30% 미만의 성공률을 기록했습니다. 이는 숄레가 언급한 대로, 대규모 언어 모델(LLMs)에 과도하게 치중된 업계의 경향 때문이라고 볼 수 있습니다. 그는 LLMs가 진정한 추론 능력보다는 암기에 의존하는 경향이 강하다고 지적합니다.
2023년 6월, 숄레와 마이크 누프는 ARC-AGI를 개선하기 위한 오픈소스 AI 개발 대회를 개최했습니다. 17789개의 제출물 중 최고 성과는 55.5%를 기록했으나, 여전히 "인간 수준"으로 간주되는 85%에는 미치지 못합니다. 이는 전년도 성적보다 20% 향상된 결과이지만, 테스트 자체의 한계가 드러나고 있다는 평가가 나옵니다.
brute force 접근법, 테스트 한계 노출
누프는 많은 참가자들이 brute force 방식, 즉 무작위 시도를 통해 성공률을 높였다고 인정했습니다. 이로 인해 ARC-AGI가 인공지능의 일반 지능을 정확히 평가하는 데 적합하지 않을 수 있다는 의문이 제기되고 있습니다. 해당 테스트는 기본적으로 퍼즐 형식의 문제를 통해 AI가 새로운 상황에 적응할 수 있는지를 측정하도록 설계되었지만, 그 효과성은 논란의 여지가 있습니다.
새로운 ARC-AGI 버전 준비, AI 연구 방향 제시
숄레와 누프는 기존의 한계를 해결하기 위해 두 번째 버전의 ARC-AGI 테스트를 준비 중이라고 밝혔습니다. 이는 AI 연구에 지속적으로 가이드를 제공하기 위한 새로운 시도입니다. 다만, AI 지능을 정의하고 이를 평가할 수 있는 기준을 만드는 것은 여전히 복잡하고 논란이 많은 과제로 남아 있습니다.