오픈AI, AI 성능 평가 새 기준 만든다
AI 벤치마크가 현실을 반영하지 못한다는 판단 아래, 오픈AI(OpenAI)가 AI 모델 평가 방식을 혁신하기 위한 새 프로그램을 시작했다. 이 회사는 '오픈AI 파이오니어스 프로그램(OpenAI Pioneers Program)'을 통해 AI의 실제 성능을 기준으로 한 새로운 평가 체계를 마련하고자 한다.
분야별 맞춤 평가로 실효성 높인다
이번 프로그램의 목표는 법률, 금융, 보험, 헬스케어, 회계 등 다양한 산업 분야에 특화된 평가 지표를 새롭게 만드는 것이다. 제대로 된 성능 측정을 위해, 오픈AI는 관련 기업들과 협력해 보다 현실적인 AI 모델의 활용 가능성과 한계를 점검한다.
먼저 선발된 스타트업들과 함께 이 프로그램이 본격 착수될 예정이며, 이들은 초기에 적용할 AI 활용 사례들을 제시해 방향을 제시할 역할도 맡는다.
AI 성능, 맞춤형 튜닝으로 정확도 향상
이 프로그램에 참여하는 기업은 오픈AI와 함께 특정 업무에 특화된 '강화 기반 미세조정(reinforcement fine-tuning)'을 통해 모델 성능을 개선할 수 있다. 이를 통해 AI가 일반적인 정답을 내놓는 것에 그치지 않고, 실제 업무에서 필요한 정밀한 판단력을 갖추도록 훈련시킬 수 있다는 설명이다.
평가의 공정성, 여전히 우려도 존재
다만, 오픈AI가 스스로 개발하는 평가 기준에 대해 AI 업계 전체가 이를 수용할지는 미지수다. 과거에도 다양한 기업이 주도한 벤치마크 프로젝트가 평가의 공정성과 투명성 문제로 비판을 받은 바 있어, 이번 시도 또한 비슷한 논란이 일 수 있다.
의견
이번 오픈AI의 시도는 AI가 단순한 기술 실험을 넘어 산업 전반에 실질적으로 기여할 수 있도록 하려는 중요한 변화로 보인다. 특히 현재 사용되고 있는 벤치마크가 실제 비즈니스 환경에 얼마나 부합하는지를 개선한다는 점에서 가치 있는 노력이다. 하지만 주도권을 가진 기업이 평가 항목을 설계하게 될 경우 발생할 수 있는 공정성 문제 역시 간과할 수 없어, 외부 전문가들과의 협업 및 투명한 운영 방식이 뒷받침되어야 할 것으로 보인다.