요약하자면, Meta의 AI 모델 Maverick은 LM Arena라는 평가 플랫폼에서 좋은 평가를 받았지만, 해당 플랫폼에서 사용된 Maverick은 일반 공개 버전과는 다른 실험용 채팅 버전이라는 점에서 논란이 있는 상황입니다. 이로 인해 연구자들과 개발자들 사이에서는 실제 공개된 모델과 평가 버전 간의 차이점이 문제로 떠오르고 있고, 성능 평가의 투명성과 신뢰성에 대한 의문도 제기되고 있습니다.
특히, LM Arena 버전은 감정 표현이 강하고 장문의 답변을 내놓는 반면, 공개 모델은 그렇지 않아 개발자들이 실제 응용 시 성능을 예측하기 어려워졌다는 지적이 있네요.
이런 접근, 어디까지 용인되어야 한다고 생각하세요?