해외에서는 인공지능(AI) 학습을 위한 뉴스 콘텐츠 활용에 정당한 대가를 지불하도록 빅테크와 언론사 등이 협의에 나서고 있지만 한국에서는 관련 논의조차 제대로 되지 않고 있다. 어떤 뉴스 콘텐츠가 AI 학습에 활용되는지 확인할 수 있는 방법도 없다. 국내에서도 적절한 대가 산정의 기준을 마련하고 투명성을 높이는 방안이 시급하다는 목소리가 크다.
네이버를 비롯한 AI 개발 기업들은 뉴스 콘텐츠를 활용해 AI를 학습시켜 왔지만 콘텐츠 사용에 대한 대가를 지불한 것은 아니다. 네이버는 자체 AI ‘하이퍼클로바X’를 개발하며 네이버 포털에 유통되고 있는 한국 언론사의 기사들을 사용한 것으로 알려졌다. 하이퍼클로바X는 한국어에 최적화된 AI 모델로 한국의 문화적 맥락을 더 섬세하게 이해할 수 있다는 점을 내세운다. 그러나 네이버는 저작권 문제가 이슈가 되자, 정당한 사용료를 지불하는 대신 지난해 하반기부터 뉴스를 통한 AI 학습을 잠정 중단하는 것으로 대응했다.
카카오가 개발 중인 AI는 물론 구글의 ‘제미나이’ 등 다른 IT 기업의 AI 모델도 한국어 학습을 위해 공개돼 있는 뉴스 정보를 사용하는 것으로 알려졌다. 문제는 기업들이 자사 AI 모델 학습을 위해 어떤 뉴스 콘텐츠를 얼마나, 어떻게 사용하는지 알 수 있는 방법이 없다는 점이다. AI 업계 관계자는 “뉴스 콘텐츠가 AI 학습을 위한 가장 우수한 데이터인 만큼 AI 경쟁력 향상을 위해서라도 뉴스 콘텐츠 활용을 위한 논의는 필요하다”면서 “콘텐츠 제공자가 이를 확인하기 위한 방법도 고민해봐야 할 것”이라고 했다.
정부는 지난해 네이버와 카카오 등이 AI 학습을 위해 데이터를 사용할 때 저작권자에게 적절한 보상을 해야 한다는 가이드라인을 마련했다. 뉴스 콘텐츠나 방송사 저작물에 대한 대가를 지급해야 하고, 홈페이지나 블로그 등에 공개된 게시물이라도 허락 없이 사용하는 경우 저작권 침해 가능성이 있다는 것이다. 이 가이드라인은 AI 시대에 저작물 활용에 대한 방향성을 제시했다는 점에서는 의미가 있지만 법적 구속력이 없는 게 한계였다.
지난 3월 한국신문협회 등 언론 단체 6개가 모여 ‘AI 시대 뉴스 저작권 포럼’을 발족했다. 포럼을 통해 AI 시대에 맞춘 뉴스 저작권법 개정안 초안을 마련하고, 뉴스 콘텐츠로 AI를 학습할 경우 뉴스를 만든 언론사에 지급해야 할 적절한 대가를 산정하기 위한 기준 등을 논의한다.