생성형 인공지능(AI) 개발의 가장 중요한 요소인 데이터 확보에 비상이 걸렸다. 지금까지 AI 개발사들은 크롤링(온라인의 데이터를 자동 수집하는 것)을 담당하는 자동 프로그램(bot)을 통해 온라인에서 각종 데이터를 긁어모아 AI 모델에 학습시켰다. 최근 언론사를 비롯한 콘텐츠 기업들이 자사 웹사이트에 대한 크롤링 접근을 금지하고 있다. 이전에는 AI 기업들이 콘텐츠를 무단 사용할 경우, 저작권을 주장하며 소송을 제기하는 수준이었지만, 이제는 데이터 수집 자체를 원천 차단하고 있는 것이다.

일러스트=김성규

빅테크들은 AI 모델의 성능을 높이기 위해 학습할 데이터를 최대한 많이 확보하는 것이 중요하지만, 이들이 활용할 수 있는 데이터의 양과 질은 오히려 악화하고 있다는 우려가 나온다. 미국 AI 연구 기관 ‘에포크 연구소’는 지금 추세라면 2년 후인 2026년부터 2032년 사이에 새로운 AI 학습용 데이터를 구하는 게 거의 불가능해지는 상황이 벌어질 것이라는 극단적 전망까지 내놨다. 저작권에 대한 정당한 지불을 하지 않으면 새로운 데이터 학습이 점점 어려워진다는 것이다.

◇2년 후부터 데이터 공급 부족

최근 미국의 사이버 보안 업체인 ‘클라우드 플레어’ 웹사이트에서 데이터를 무단으로 가져가는 것을 막는 무료 프로그램을 출시했다. 오픈AI와 구글, 애플 등이 웹사이트 소유자의 동의 없이 해당 사이트에 접근하는 행위를 금지하는 것이다. 이 회사는 “악의적인 사업자가 대규모로 웹사이트를 크롤링하는 것을 막는 도구를 제공할 것”이라고 했다.

AI 학습에 많이 동원하는 미국 최대 온라인 커뮤니티 ‘레딧’은 지난달 크롤링 방지 도구를 한층 강화했다. 레딧은 올 들어 구글과 오픈AI에 콘텐츠를 유료로 제공하기로 계약을 맺었는데 자사 콘텐츠를 무단으로 크롤링하는 걸 더 엄격하게 막으려는 것이다.

특히 양질의 데이터를 보유하고 있는 언론사들은 이미 데이터 수집 차단에 나섰다. 로이터에 따르면, 지난해 말 기준 언론사 1165개 중 절반이 넘는 638사가 오픈AI나 구글, 비영리 데이터 수집 단체인 커먼크롤을 대상으로 사이트 검색을 중단시켰다.

그래픽=김성규

MIT가 운영하는 연구소 데이터 프로비넌스 이니셔에이티브(DPI)에 따르면, AI 데이터 수집에 이용된 웹사이트 1만4000개 중 5%가 지난해 ‘크롤러 접근’을 차단했다. 특히 언론 등 고품질 콘텐츠 사이 중에선 25%가 크롤러를 금지하고 있다. DPI는 “온라인 웹사이트 전반에서 데이터 수집을 금지하는 조치가 빠르게 늘어나고 있다”고 했다.

‘크롤러 차단’이 확산하면서 AI 모델 개발사들은 데이터 확보에 어려움을 겪고 있다. 온라인에서 데이터는 계속 생겨나고 있지만 AI 학습에 필요한 데이터의 수요를 따라가긴 역부족이기 때문이다. 오픈AI가 2020년 내놓은 GPT-3는 토큰(AI가 학습하는 문장의 최소 단위) 약 3000억개를 학습했다. 3년 후 출시된 GPT-4는 40배가 늘어난 토큰 약 12조개를 훈련했다. 메타가 올해 출시한 생성 AI 라마3는 15조개 넘는 토큰을 학습했다. 에포크 연구소에 따르면, GPT-5는 토큰 약 60조개의 데이터를 학습할 것으로 예상되지만 현재 사용 가능한 양질의 데이터를 모두 합쳐도 GPT-5 학습에 10조~20조개 이상 토큰이 부족할 수 있다.

뉴욕타임스는 “언론사나 창작자, 저작권자들이 데이터 수집을 제한하면서 AI 모델을 최신 상태로 유지하기 위해 고품질의 데이터를 꾸준히 확보해야 하는 AI 개발사들이 위협을 느끼고 있다”고 했다.

그래픽=김성규

◇빅테크의 크롤링에 거센 비판

생성형 AI가 등장하기 전에는 크롤링으로 얻어진 데이터들이 어떻게 쓰이는지 창작자들이 알 수 없었다. 생성형 AI 열풍이 불면서 데이터의 가치가 올라가고, 언론사와 창작자들도 여기에 대한 정당한 가치를 요구하면서 크롤링에 대한 거부감이 커진 것이다.

최근에 AI 개발사들의 크롤링 행태에 대한 비난은 더욱 거세지고 있다. 데이터 저작권에 대한 요구가 커지는데도 불구하고 AI 개발사들이 여전히 크롤링으로 데이터를 수집했단 사실이 드러났기 때문이다. 최근 비즈니스 인사이더에 따르면, 오픈AI와 앤트로픽은 웹사이트의 크롤링을 방지하는 도구를 우회하는 것으로 밝혀졌다. 아마존, 엔비디아의 투자를 받은 AI 검색 스타트업 퍼플렉시티도 IT 전문지 와이어드와 포브스의 크롤링 방지 도구를 우회해서 데이터를 수집한 것이 드러났다.

AI 크롤러(crawler)

크롤러는 인터넷 웹페이지를 방문해 정보를 자동으로 수집하고 분류·저장하는 소프트웨어다. 최근 오픈AI나 앤트로픽과 같은 AI 개발사에서 내놓은 AI 크롤러는 이와 같은 방식으로 AI 모델 학습에 필요한 데이터를 확보한다.