오픈AI GPT-4o, 저작권 침해 논란 휩싸여
인공지능의 투명성을 추구하는 ‘AI 공개 프로젝트(AI Disclosures Project)’의 최신 연구에 따르면, 오픈AI(OpenAI)의 최신 언어 모델 GPT-4o가 저작권 보호를 받는 콘텐츠를 학습 데이터로 사용했을 가능성이 제기됐다. 이 프로젝트는 사회적 책임을 강조하며 인공지능 상용화 과정에서의 데이터 사용 실태를 공개하고 있다.
O'Reilly Media 콘텐츠에 대해 ‘강한 인식’ 보여
AI 공개 프로젝트는 34권의 O'Reilly Media 출판 도서를 바탕으로 오픈AI의 언어 모델들이 실제 이 콘텐츠를 학습했는지를 분석했다. 주요 분석 도구로는 ‘DE-COP 멤버십 추론 공격(Membership Inference Attack)’ 기법이 사용됐다. 이는 인공지능 모델이 주어진 텍스트의 출처를 어느 정도 구별할 수 있는지를 분석하는 기술이다.
분석 결과는 다음과 같다:
- GPT-4o는 판매 제한이 걸린(paywalled) O'Reilly 도서에 대해 매우 높은 인식률(AUROC 82%)을 보였다.
- GPT-3.5 Turbo의 경우 AUROC 수치는 약 50%로, 명확한 인식 차이를 나타내지 않았다.
- 공개되지 않은 콘텐츠에 대한 GPT-4o의 인식력은 공개 콘텐츠보다 더욱 높았다(82% vs. 64%).
- 반대로 GPT-3.5 Turbo는 공개 콘텐츠에 대해서만 상대적으로 높은 인식률을 보였다(64% vs. 54%).
- 경량 모델인 GPT-4o Mini는 전체적으로 거의 인식하지 못한 것으로 나타났다(AUROC 약 50%).
불법 경로 통한 데이터 수집 가능성 제기
연구진은 GPT-4o 모델의 학습에 사용된 O'Reilly 콘텐츠가 비공식 온라인 도서관인 ‘LibGen(라이브젠)’에서 유입되었을 가능성을 지적했다. 해당 데이터는 모두 이곳에서 발견되었기 때문이다.
비록 최신 언어 모델들이 인간이 작성한 텍스트와 AI가 생성한 텍스트의 차이를 구별하는 능력이 향상되었지만, 이로 인해 그들이 학습한 자료의 출처와 내용에 대한 분류 능력 또한 강력해졌다는 점이 이번 연구에서 부각됐다.
데이터의 시간적 편향 가능성도 고려
연구진은 시간에 따른 언어 변화가 결과에 영향을 줄 수 있다는 '시간 편향(Temporal Bias)'에도 주목했다. 이에 따라 연구에는 같은 시점에 학습된 두 가지 모델이 비교 대상으로 포함됐다.
이번 사례는 특정 기업과 출판사 간의 문제로 보일 수 있지만, 실제로는 더 광범위한 저작권 데이터 사용의 구조적 문제를 보여준다고 연구진은 강조했다.
인공지능 개발의 책임과 투명성 요구 증가
AI 공개 프로젝트는 AI 회사들이 학습 데이터의 출처를 명확히 공개해야 하며, 이에 대한 법적 책임도 함께 수반되어야 한다고 주장한다. 유럽연합의 ‘AI법(AI Act)’에서 요구하는 투명성 기준은 앞으로 이런 표준을 형성하는 데 중요한 역할을 할 것으로 보인다.
한편, 일부 기업들은 최근 콘텐츠 라이선스를 통해 정당한 방식으로 학습 데이터를 확보하려는 움직임을 보이고 있다. 이는 AI 시장에서 법적, 윤리적 기준 정립의 초기가 될 수 있다.
해당 보고서, 오픈AI의 저작권 위반 가능성 뒷받침
보고서는 GPT-4o가 비공개 콘텐츠를 학습한 정황을 실증적으로 뒷받침하며, 향후 AI 모델 훈련에 사용되는 데이터의 소유권 및 보상체계에 대한 논의가 필요함을 시사한다. 인공지능 발전이 가져올 기술혁신 못지않게, 그 기반이 되는 데이터의 출처와 합법성 또한 중요한 문제가 될 것이다.
📝 의견
이번 연구는 AI의 윤리성과 투명성에 대한 우려를 구체적인 사례를 통해 드러내고 있다. AI 기술이 발전함에 따라, 더 이상 단순한 기술적 성능 향상만을 논의할 단계는 아니다. AI가 학습하는 데이터가 누구의 소유이며, 그 사용이 얼마만큼 정당한가에 대한 논의가 더욱 중요해졌다. 기업의 책임 있는 자세와 함께, 사용자와 창작자 모두가 납득할 수 있는 기준이 시급히 마련되어야 할 것이다.