AI 모델, 'Sunday Puzzle' 활용해 추론 능력 테스트
미국 NPR 라디오의 진행자 윌 쇼츠(Will Shortz)는 매주 일요일마다 'Sunday Puzzle'이라는 코너에서 난이도 높은 퍼즐 문제를 출제한다. 최근 웰즐리 칼리지(Wellesley College)와 노스이스턴 대학교(Northeastern University) 연구진이 이 퍼즐을 활용해 인공지능(AI)의 추론 능력을 평가하는 기준을 마련했다. 연구 결과, 일부 AI 모델은 필요한 정보를 갖고 있음에도 불구하고 틀린 답을 내놓는 등 추론 능력에 한계를 드러낸 것으로 밝혀졌다.
600여 개 퍼즐로 AI 추론력 검증
연구진은 'Sunday Puzzle'의 약 600개 문제를 선정해 AI의 추론 능력을 평가하는 새로운 기준을 만들었다. 기존 AI 평가 방식이 주로 수학이나 과학 지식을 필요로 하는 경우가 많았던 것과 달리, 이 퍼즐은 일반적인 상식만으로 해결할 수 있도록 구성되어 있다. 연구 공동 저자인 아르준 구하(Arjun Guha)는 "AI 모델이 제거법 등을 활용해야 하는 문제에서 어려움을 겪는다"고 설명했다.
AI, 때로는 비논리적 답변…감정 표현도?
'Sunday Puzzle'의 문제는 대체로 영어 기반이며 미국 문화에 집중된 특성이 있다. 하지만 매주 새로운 문제가 추가되면서 평가 기준도 계속 발전할 수 있도록 했다. 연구 결과, OpenAI의 'o1'과 DeepSeek의 'R1' 같은 모델은 논리적 검토를 철저히 수행해 다른 AI보다 나은 성과를 보였지만, 때때로 엉뚱한 답변을 내놓거나 심지어 '좌절감'을 표현하는 듯한 반응도 보이는 것으로 나타났다.
AI 발전과 한계 이해 위한 지속 연구 필요
이번 연구는 AI 추론 능력을 보다 널리 평가할 수 있는 기준을 마련하는 것을 목표로 삼았다. AI가 다양한 분야에서 활용되는 만큼, 그 한계를 명확히 이해하는 것이 중요하다는 것이 연구진의 입장이다. 앞으로도 AI가 복잡한 사고 과정을 얼마나 정확히 수행할 수 있는지를 검증하는 작업이 계속될 전망이다.
[의견]
AI가 단순한 정보 검색을 넘어 논리적으로 사고할 수 있는 능력을 갖춰야 한다는 점은 매우 중요하다. 이번 연구는 AI가 여전히 발전 중이며, 예상치 못한 오류를 범할 수 있음을 보여준다. 향후 AI가 추론 능력을 더욱 정교하게 발전시키기 위해서는 다양한 문제를 활용한 지속적인 테스트가 필수적이다.