Google의 SynthID Text, AI 생성 텍스트 식별 도구 공개
Google은 AI 모델이 생성한 텍스트에 워터마크를 삽입하고 이를 감지할 수 있는 기술인 SynthID Text를 공개합니다. 이 기술은 Hugging Face와 Google의 업데이트된 Responsible GenAI Toolkit을 통해 사용할 수 있습니다. Google은 이 도구를 오픈 소스로 제공하여 개발자와 기업들이 AI 생성 콘텐츠를 식별할 수 있도록 지원할 계획입니다.
SynthID Text는 텍스트 생성 모델이 특정 주어진 문장에 따라 다음에 올 "토큰"을 예측하는 방식으로 작동합니다. 이 과정에서 토큰은 단일 문자 또는 단어로 정의되며, 모델은 각 토큰에 대해 발생 가능성을 점수로 부여합니다. 이 점수 분포에 워터마킹 정보를 삽입하여 AI 생성 여부를 파악할 수 있습니다.
AI 워터마킹의 효과와 과제
Google은 SynthID Text가 텍스트 품질이나 생성 속도를 저해하지 않으며, 편집이나 수정된 텍스트에서도 동작한다고 밝혔습니다. 그러나 짧은 텍스트나 번역된 텍스트, 사실 질문에 대한 답변에서는 성능이 떨어질 수 있다고 인정했습니다. 사실 질문의 경우, 토큰 분포 조정이 정확성에 영향을 미칠 가능성이 있어 조정의 여지가 적기 때문입니다.
다른 기업들 역시 AI 텍스트 워터마킹 기술을 연구하고 있습니다. OpenAI는 기술적 및 상업적 이유로 출시를 지연하고 있지만, 이러한 기술은 잘못된 AI 탐지기를 대체할 수 있는 잠재력을 지니고 있습니다.
중국과 캘리포니아에서는 AI 생성 콘텐츠에 대한 워터마킹을 법적으로 의무화하려는 움직임도 있습니다. 유럽연합 보고서에 따르면 2026년까지 온라인 콘텐츠의 90%가 AI에 의해 생성될 수 있으며, 이는 허위 정보와 사기 같은 새로운 법적 문제로 이어질 수 있음을 경고합니다. AWS 연구에 따르면 이미 웹상의 문장 중 거의 60%가 AI에 의해 작성되고 있다고 합니다.
출처 : Google releases tech to watermark AI-generated text