메타, AI 모델 벤치마크 조작 의혹 부인
메타(Meta)는 최근 자사 AI 모델에 대한 벤치마크 조작 의혹을 강하게 부인했다. 메타의 생성형 AI 부문 부사장 아흐마드 알달레(Ahmad Al-Dahle)는 24일(현지시간) "메타가 라마4 매버릭(Llama 4 Maverick)과 라마4 스카우트(Llama 4 Scout) 모델을 테스트 세트를 기반으로 훈련시켰다는 주장은 사실이 아니다"라고 밝혔다. 테스트 세트에서 직접 훈련을 진행할 경우, 실제 성능보다 과도하게 벤치마크 점수가 높게 나타날 수 있어 논란의 소지가 있다.
조작 의혹, 중국 소셜미디어발 루머에서 시작
이번 소문은 주말 동안 중국 소셜미디어를 통해 퍼지기 시작했다. 한 사용자가 "벤치마킹 관행에 항의해 메타를 사직했다"고 주장하면서 조작 의혹을 제기한 것이다. 여기에 라마4 매버릭과 스카우트가 일부 작업에서 기대 이하의 성능을 보인다는 보고와, 메타가 LM 아레나(LM Arena) 벤치마크 점수를 높이기 위해 매버릭의 실험 버전을 사용했다는 사실이 알려지면서 의혹은 더욱 커졌다. 특히 연구자들은 공개 다운로드 가능한 매버릭과 LM 아레나에 게시된 버전 간에 행동 차이가 뚜렷하다고 지적했다.
"혼재된 품질에 대한 사용자 피드백 인지하고 있다"
알달레 부사장은 매버릭과 스카우트 모델이 다양한 클라우드 제공업체를 통해 서비스되면서 "혼재된 품질(mixed quality)"을 보이고 있다는 점을 인정했다. 그는 "모델을 준비되자마자 출시했기 때문에 여러 퍼블릭 버전들이 안정화되기까지 며칠이 걸릴 것"이라며 "현재 버그 수정과 파트너 온보딩 과정을 계속 진행 중"이라고 설명했다.
이번 메타의 대응은 최근 AI 업계에서 데이터 윤리와 모델 투명성에 대한 관심이 높아지는 가운데 나왔다. 아직 조작을 입증할 구체적인 증거는 없지만, 메타가 실험적 버전을 활용해 벤치마크를 최적화했다는 지적은 업계 전반에 신뢰 이슈를 환기시키고 있다. 개인적으로는, 메타가 모든 실험 데이터를 보다 투명하게 공개하고 다양한 평가 환경에서도 일관된 성능을 유지할 수 있도록 조치하는 것이 신뢰 회복에 필수적이라고 생각한다.