생성형 AI 학습데이터 영향력 추적 나선 마이크로소프트
마이크로소프트가 생성형 인공지능(AI) 모델의 출력 결과에 특정 학습 데이터가 어느 정도 영향을 미쳤는지를 추정하는 연구 프로젝트를 새롭게 시작했다. 이를 통해 이미지나 책처럼 AI 훈련에 사용된 개별 자료가 최종 결과물에 미치는 영향을 보다 정확하게 측정할 수 있다는 점을 입증하고자 한다.
불투명한 AI 학습 구조에 투명성 확보
이번 프로젝트는 현재의 신경망 구조가 결과물의 정보 출처를 명확히 알기 어렵다는 문제의식에서 출발했다. 마이크로소프트 측은 AI 모델이 의존하는 콘텐츠의 출처를 밝혀내는 것이 향후 데이터 제공자에게 정당한 보상을 제공하고, 양질의 데이터가 더 많이 공급되는 선순환 구조를 만들 수 있다고 설명했다.
특히 이 프로젝트는 ‘학습 시점 출처 추적(Training-Time Provenance)’이라는 개념을 적용하고 있으며, 마이크로소프트 리서치 소속 기술 철학자 제런 레이니어(Jaron Lanier)가 주도하고 있다. 그는 '데이터 존엄(Data Dignity)'이라는 철학을 강조하며, 모든 디지털 콘텐츠가 그 창작자와 연결되어야 한다고 주장하고 있다.
저작권 분쟁 속 투명성 강화 시도
AI 학습에 공공 데이터나 저작권이 있는 콘텐츠가 대거 사용되며, 현재 다양한 저작권 분쟁이 발생 중이다. 마이크로소프트 역시 이와 관련된 법적 문제에 직면해 있다. 대표적으로 뉴욕타임스를 비롯한 콘텐츠 제작자들과, 소프트웨어 개발자들이 마이크로소프트의 GitHub Copilot 툴이 자신들의 저작물을 무단으로 활용했다고 주장하며 집단소송을 제기한 상태다.
이 같은 상황에서 마이크로소프트의 이번 프로젝트는 생성형 AI 개발 과정에서 저작권 보호와 공정 사용 원칙을 논의하는 AI 업계 내 논의에 기여할 것으로 기대된다.
데이터 기여자 보상을 향한 실험적 시도
일부 AI 기업들은 이미 콘텐츠 제공자에게 AI 결과물에 대한 기여도를 기준으로 보상하는 방식을 도입하고 있지만, 이 같은 보상체계의 투명성과 공정성은 여전히 과제로 남아 있다. 대부분의 대형 AI 연구소는 개별 콘텐츠 제작자에게 보상을 제공하기보다는 포괄적인 라이선스 방식으로 데이터를 확보하는 추세다.
마이크로소프트의 프로젝트는 이전에 오픈AI가 제안했지만 실제 구현되지 않았던 기술 개념을 실험하는 시도라는 점에서도 주목받는다. AI 개발 전 과정에서 학습 데이터의 출처를 추적하고, 이에 대해 정당한 보상을 논의하는 기반을 마련하려는 의미 있는 움직임으로 평가된다.
의견
마이크로소프트의 이번 연구는 AI 산업이 직면한 가장 중요한 쟁점 중 하나인 데이터 기여자에 대한 보상 문제를 정면으로 다루고 있다는 점에서 의의가 크다. 생성형 AI는 수많은 창작물 위에 구축되어 있으며, 그들에 대한 적절한 인정과 보상이 없다면 결국 창작 생태계 자체가 위협받을 수 있다. 학습 데이터에 대한 영향분석이 기술적으로 가능해진다면, 향후 AI 모델 개발과 저작권 보호가 더욱 조화롭게 이루어질 수 있는 길을 여는 셈이다.