GPT-4o, 무단으로 저작권 콘텐츠 학습 의혹
최근 발표된 보고서에 따르면, 오픈AI(OpenAI)가 자사 인공지능 모델 학습에 저작권 보호 콘텐츠를 무단으로 사용했다는 의혹이 제기됐다. 인공지능 투명성 감시 단체인 'AI 디스클로저 프로젝트(AI Disclosures Project)'는 GPT-4o가 공개되지 않은 오라일리(O’Reilly Media) 출판사의 도서를 데이터로 사용했을 가능성이 높다고 주장했다. 해당 단체는 테크 업계 유명 인사인 팀 오라일리(Tim O’Reilly)가 공동 설립한 조직이다.
GPT-4o, 이전 모델보다 비공개 콘텐츠 인식 능력 향상
보고서는 GPT-4o 모델이 오라일리 출판사의 유료 콘텐츠를 GPT-3.5 터보(GPT-3.5 Turbo) 모델보다 더 잘 이해하는 것으로 나타났다며, 이는 GPT-4o가 해당 자료를 학습에 사용했을 가능성을 뒷받침한다고 밝혔다. GPT-3.5 터보 모델은 대체로 대중에 공개된 자료에 더 익숙한 반면, GPT-4o는 유료 접근 콘텐츠에 대한 높은 인식 수준을 보였다는 것이다.
이러한 분석은 'DE-COP'이라고 불리는 저작권 탐지 방법을 통해 진행됐으며, 이를 활용해 GPT-4o의 학습 데이터에 포함된 저작권 콘텐츠를 정밀 분석했다.
"완벽한 증거는 아냐"… 사용자 입력 가능성도 존재
다만 연구진은 해당 분석 방법이 완벽하지 않으며, 일부 콘텐츠가 채팅 이용자의 질문 또는 상호작용을 통해 유입됐을 가능성도 열어뒀다. 또한 최신 오픈AI 모델은 이번 조사에 포함되지 않았기 때문에 현재는 어떤 자료를 활용하고 있는지 단정 짓기 어렵다고 지적했다.
오픈AI, 데이터 라이선스 계약 있지만… 여전한 법적 논란
오픈AI는 그동안 여러 콘텐츠 제공업체와 고급 데이터 확보를 위한 라이선스 계약을 맺어온 것으로 알려져 있다. 그러나 이번 보고서는 오픈AI의 데이터 수집 방식과 저작권 준수 여부에 대한 의문을 다시금 제기하며, 관련 소송이 이어지고 있는 가운데 주목을 받고 있다. 오픈AI는 이번 보고서와 관련한 언론의 질의에 별다른 입장을 밝히지 않았다.
이번 보고서는 대규모 언어모델(LLM) 개발 과정에서 저작권 이슈가 얼마나 복잡하고 민감한 사안인지를 보여준다. 특히 유료 콘텐츠가 학습에 사용됐을 가능성이 제기됨에 따라, 향후 AI 기업들이 더욱 투명한 방식으로 데이터 수집 및 학습 절차를 공개해야 할 필요성이 커지고 있다. 이러한 논란은 향후 생성형 AI 기술의 신뢰성과 윤리성 확보에도 핵심적인 쟁점으로 작용할 것으로 보인다.