일부 최고 성능의 AI도 통과하지 못하는 새로운 도전
AI 안전을 위한 비영리 단체 CAIS와 Scale AI는 최첨단 인공지능 시스템을 평가하기 위한 새로운 기준인 '인류의 마지막 시험(Humanity's Last Exam)'을 발표했다. 이 시험은 수학, 인문학, 자연과학 같은 분야를 포함한 수천 개의 군중 소싱 문제로 구성되어 있으며, 다이어그램과 이미지 등 다양한 형식으로 질문이 제시된다.
최초 결과 공개, 최고 AI도 10% 이하 점수
초기 연구 결과, 기존에 공개된 대표적인 인공지능 시스템 중 어떤 것도 이 시험에서 10% 이상의 점수를 기록하지 못했다. 이러한 저조한 성적은 인공지능의 한계를 다시금 드러냈다.
연구 커뮤니티와의 협력을 통한 추가 평가 계획
CAIS와 Scale AI는 '인류의 마지막 시험'을 연구 커뮤니티에 공개하여 새로운 AI 모델의 성능을 평가하고자 한다고 밝혔다. 이를 통해 인공지능 기술의 현재 상태를 측정하고, 미래의 발전을 위한 지표로 삼을 계획이다.
해당 기사에 대한 내 의견:
이처럼 어려운 벤치마크가 도입된 것은 AI 연구의 한계를 명확히 보여주고, 동시에 기술 발전에 새로운 목표를 제시할 수 있다는 점에서 의미가 크다. 다만, 현실에서의 활용 가능성을 고려할 때 이러한 벤치마크가 AI 시스템의 성능을 과소평가할 가능성도 염두에 두어야 한다고 본다.