메타, 저작권 논란 속 AI 훈련 데이터 활용 논의
미국 법원에 제출된 서류에 따르면, 메타(Meta) 내부 직원들이 법적으로 문제가 될 수 있는 방식으로 확보한 저작권 보호 작품을 인공지능(AI) 모델 훈련에 활용했을 가능성이 제기됐다. 해당 문서는 'Kadrey v. Meta' 소송에서 제출된 것으로, AI 저작권을 둘러싼 법적 분쟁의 한 부분이다.
저작권 보호 콘텐츠 활용 공방
메타는 저작권이 보호된 콘텐츠, 특히 책을 AI 모델 훈련에 사용하는 것이 '공정 이용(fair use)'에 해당한다고 주장하고 있다. 반면, 원고 측인 사라 실버먼(Sarah Silverman)과 타네히시 코츠(Ta-Nehisi Coates) 등의 작가들은 이에 강하게 반발하고 있다.
이전에 제출된 법적 문서에서는 메타의 CEO 마크 저커버그가 AI 훈련을 위해 저작권 보호 콘텐츠를 활용하는 것을 승인했다는 주장이 제기됐다. 또한, 메타가 출판사들과 AI 훈련 데이터 라이선스 계약 논의를 중단했다는 점도 언급됐다.
내부 논의에서 드러난 데이터 수집 전략
법원 서류에 포함된 메타 직원들의 내부 대화에 따르면, AI 모델, 특히 Llama 계열 모델을 훈련시키는 과정에서 저작권 보호 가능성이 있는 데이터를 어떻게 활용할 것인지에 대한 논의가 이루어졌다.
한 내부 대화에서는 직원들이 책을 입수하는 방안을 논의하며 법적 위험성을 인식하고 있었다. 한 연구 엔지니어는 라이선스 협상을 하기보다는 전자책(e-book)을 직접 구매하는 것이 더 현실적인 접근 방식이라고 주장했다. 그는 많은 스타트업이 저작권을 위반하는 자료를 활용하고도 별다른 법적 문제를 겪지 않았다는 점을 근거로 들었다.
Libgen 활용 방안 검토
메타는 논의 과정에서 Libgen과 같은 자료 공유 사이트를 데이터 소스로 활용하는 방안도 고려한 것으로 드러났다. Libgen은 저작권 보호된 콘텐츠를 무료로 제공하는 사이트로 알려져 있다.
일부 메타 직원들은 해당 사이트를 활용하지 않는다면 AI 모델 개발 경쟁에서 불리해질 것이라고 우려했다. 이에 따라, 법적 리스크를 최소화하기 위한 다양한 방안을 검토했으며, 명백한 불법 자료를 훈련 데이터셋에서 제거하거나 특정 데이터셋 사용 여부를 공개하지 않는 등의 전략이 논의됐다.
AI 훈련 데이터 확보 위한 추가 방안 고려
또한, 메타 내부에서는 Reddit 등 온라인 플랫폼에서 데이터를 수집(scraping)하는 방안을 검토한 것으로 알려졌다. 하지만 AI 기업들이 향후 데이터 접근료(access charges)를 지불해야 하는 상황이 올 수 있다는 우려도 제기됐다.
이에 따라 메타 경영진은 내부적으로 검토한 데이터 출처를 다시 점검하고, 페이스북(Facebook)과 인스타그램(Instagram)의 내부 콘텐츠를 넘어 AI 훈련을 위한 충분한 데이터를 확보하는 방안을 모색했던 것으로 보인다.
원고 측, 메타의 라이선스 관행 문제 제기
원고 측은 메타가 불법 복제된 콘텐츠와 공식적으로 라이선스를 받은 자료를 비교해 향후 라이선스 계약 체결 여부를 결정하는 방식으로 운영됐다는 점을 강조하며 여러 차례 소장을 수정했다. 이를 통해 메타가 AI 훈련 데이터 확보를 위해 불법적인 방법도 사용했을 가능성이 있다고 주장했다.
메타, 강력한 법률팀 구성하며 방어 준비
이러한 논란이 확산되자, 메타는 유명 로펌 폴 와이스(Paul Weiss) 출신의 저명한 변호사들을 추가 영입해 법적 대응을 강화한 것으로 알려졌다.
의견
메타가 AI 훈련을 위해 저작권 문제를 어떻게 다뤄왔는지는 AI 산업 전반에 중요한 시사점을 제공한다. AI 모델의 성능 향상에 방대한 데이터가 필요한 상황에서, 기업들이 저작권법을 어떻게 해석하고 대응하는지가 앞으로 AI 기술 발전 방향에 큰 영향을 미칠 것으로 보인다. 이번 사건이 향후 AI 훈련 데이터 확보 방식의 법적 기준을 형성하는 계기가 될 가능성도 높다.