AI 데이터 수집 봇 폭증…위키미디어, 대역폭 사용 50% 급증
위키미디어 재단(Wikimedia Foundation)은 2024년 1월 이후 Wikimedia Commons에서 미디어 파일 다운로드 시 사용되는 대역폭이 50% 이상 증가했다고 밝혔다. 하지만 이러한 급증은 실제 사용자 수요 증가가 아니라, 인공지능(AI) 모델의 학습용 데이터를 수집하는 자동화된 스크래퍼(scraper)들 때문인 것으로 나타났다.
과도한 트래픽의 65%는 '봇'이 유발
위키미디어에 따르면, 가장 많은 시스템 자원을 소비하는 트래픽 중 약 65%가 봇에서 유래한다. 전체 페이지뷰 중 봇이 차지하는 비중은 35%에 불과하지만, 봇들이 주로 접근하는 콘텐츠는 사용자들에게 인기가 없는 자료들이라 캐시 서버에 저장되지 않고, 서버의 핵심 데이터 센터까지 접속해야 하는 경우가 많다. 이로 인해 접속 비용이나 서버 부하가 더 커지는 것이다.
유저 보호 위해 'AI 크롤러' 차단 집중
이러한 현상에 대응하기 위해, 위키미디어 재단의 사이트 안정성 팀은 정규 사용자들이 서비스를 원활히 이용할 수 있도록 자동화된 크롤러들을 차단하는 데 자원을 집중하고 있다. 하지만 이와 동시에 클라우드 서비스 이용 비용이 계속 증가하고 있어 지속적인 압박을 받고 있다.
AI 크롤러, 웹 규약 무시한 채 데이터 수집
위키미디어의 사례는 AI 크롤러들이 웹사이트 운영 규약을 무시하고 데이터를 수집하는 과정을 보여주는 대표적인 사례다. 일반적으로 로봇 접근 제한 표준(robots.txt)과 같은 인터넷의 기본 프로토콜은 과도한 자동화 접근을 제어하도록 설계되어 있으나, 이를 무시하는 AI 스크래퍼들이 늘어나면서 대역폭 사용량이 급증하고 있다.
웹 전체로 퍼지는 AI 크롤링 대책 마련 움직임
일부 기술 기업들은 이 같은 문제에 대응하기 시작했다. 콘텐츠 전송 네트워크(CDN) 기업 클라우드플레어(Cloudflare)는 AI 크롤러들의 접근을 늦추기 위해 ‘AI 미로(AI Labyrinth)’라는 기술을 도입하기도 했다. 그러나 이런 노력에도 불구하고, 콘텐츠 제공자와 데이터 수집 로봇 간의 싸움은 현재도 계속되고 있다. 장기적으로는 웹사이트들이 더 엄격한 접근 통제를 도입할 가능성도 제기되고 있다.
이 기사는 AI 기술 발전에 따른 인터넷 인프라의 부작용을 보여준다. AI 훈련을 위한 데이터 수집이라는 명분 아래 이뤄지는 자동화된 트래픽이, 운영비 증가와 서비스 품질 저하라는 형태로 오픈 인터넷의 가치를 위협하는 것은 우려스러운 일이다. AI의 발전이 오히려 자유롭고 개방된 지식 공유에 걸림돌이 되어서는 안 될 것이다. AI 개발자들과 콘텐츠 제공자들이 상호 존중하는 방향에서 기술적 균형점을 찾아야 할 것이다.