팀쿡 애플 CEO./로이터 연합뉴스

22일(현지 시각) 뉴욕타임스는 다수의 소식통을 인용해 “애플이 최근 몇 주간 주요 언론, 출판사들과 접촉해 생성형 인공지능(AI)의 훈련에 뉴스 콘텐츠를 사용하기 위한 협상을 시작했다”고 보도했다. 애플이 콘텐츠 사용 계약을 제안한 곳은 유명 잡지 ‘보그’와 ‘뉴요커’를 발행하는 콘데 나스트, 미 방송사 NBC뉴스, 잡지 ‘피플’과 온라인 매체 ‘데일리 비스트’를 운영하는 IAC 등 대형 미디어 기업들이다. 계약 규모는 최소 5000만달러(약 651억만원)으로, 애플은 향후 수년간 이들 회사가 저작권을 소유하고 있는 텍스트·이미지·동영상을 자사 AI의 훈련과 서비스에 광범위하게 활용하고자 하는 것으로 알려졌다.

◇빅테크·미디어 기업 간 콘텐츠 계약 확산

테크 업계에선 “AI의 학습·훈련에 사용되는 글과 이미지에 대한 저작권 논쟁이 심화되는 가운데, 글로벌 빅테크 기업들이 향후 법적 분쟁을 피하기 위해 미디어 기업들과 협상에 나서면서 업계 트렌드로 자리 잡고 있다”는 평가가 나온다. 생성형 AI 챗봇 ‘챗GPT’를 운영하는 오픈AI는 지난 13일 미국 정치 전문 매체 폴리티코와 독일 일간지 빌트를 소유한 다국적 미디어 그룹 악셀 스프링어와 뉴스 사용 계약을 체결했다. 구체적인 계약 금액은 알려지지 않았지만, 업계에선 적어도 수천만 유로(수백억 원)에 달할 것으로 보고 있다. 오픈AI는 이에 앞서 지난 7월 AP통신과도 콘텐츠 사용 계약을 체결했다.

AI 훈련에 테크 기업들은 미리 만들어진 대규모 데이터 베이스를 주로 활용해왔다. 하지만 이들 데이터 베이스를 구성하는 데이터는 검증된 콘텐츠가 아닌, 웹에서 마구잡이로 수집한 경우가 대부분이다. 실제로 지난 20일 미 스탠퍼드대 인터넷 감시소는 AI 훈련용으로 유명한 이미지 데이터 베이스 ‘레이온-5B’에서 최소 1000장 이상의 아동 성 학대 사진을 발견했다고 발표했다. 이미지를 수집하는 과정에서 성인용 비디오 사이트의 사진을 검열 없이 가져온 결과다.

전문가들은 “제대로 된 AI를 구축하기 위해선 정제된 팩트 중심의 데이터가 무엇보다 중요하다”고 지적한다. 빅테크 간 AI 개발 전쟁이 치열한 가운데, 잘못된 데이터로 훈련된 AI가 비윤리적인 답변을 내놓는 오류를 범할 경우 바로 경쟁에서 뒤처질 가능성도 크다. 이 때문에 오픈AI에 이어 애플과 같은 빅테크들이 비용을 지불해서라도 미디어 기업의 신뢰도 높은 콘텐츠를 AI 훈련에 활용하는 방향으로 태도를 전환하고 있다는 것이다. 테크 업계 관계자는 “캐나다에서 검색에 노출되는 뉴스에 대해 전재료를 지불하기로 한 구글도 조만간 미디어 기업들과 AI 학습·훈련용 콘텐츠에 관한 추가 협상을 진행할 가능성이 크다”고 말했다.

그래픽=정인성

◇한국은 AI 무단 학습 규제 미비

이에 비해 한국은 AI 학습·훈련용 데이터 저작권에 대한 논의와 제도 시행이 뒤처져 있다. 지난 10월 네이버의 생성형 AI ‘하이퍼클로바X’에 대해 한국신문협회는 “네이버는 AI 개발에 언론사들이 소유한 뉴스 데이터를 무단 사용했고, 이는 계약 위반”이라며 네이버의 뉴스 저작권 침해 문제를 제기했다. 이에 대해 네이버는 “언론사들과 윈윈(win-win)할 수 있는 상생 설루션을 내놓겠다”는 입장만 밝혔을 뿐, 구체적인 해결책을 제시하지 않은 상황이다.

문화체육관광부는 연내 ‘AI 저작권 가이드라인’을 발표하겠다는 입장이다. 다만 해당 가이드라인은 ‘생성 AI가 만든 글·이미지·영상을 창작물로 보고 저작권을 인정할 것인가’에 초점이 맞춰질 것으로 보인다. AI 학습에 미디어 기업 등 저작권자의 콘텐츠가 무단 사용되는 것을 규제하는 지침과 법률은 요원하다는 지적이 나오는 배경이다. 반면 유럽연합(EU)은 AI 학습에 사용된 저작권 자료 리스트를 공개하도록 하는 법안 도입을 추진하고 있다.

이렇게 AI의 콘텐츠 무단 학습에 대한 규제와 합의가 사실상 전무한 국내에서 정당한 사용권을 확보하려는 시도가 나오고 있다. AI 스타트업 업스테이지는 국내 기업·기관 30여곳과 파트너십 계약을 맺고 지난 8월 ‘1T 클럽’을 발족했다. 각 기업은 1억 단어 이상 한국어 데이터를 제공하고, AI가 상용화되면 수익과 기술 일부(API)를 공유하는 방식이다. 업스테이지 관계자는 “정교한 한국어 AI를 위해선 검증되고 정확한 데이터가 필요하다”며 “정당한 대가를 지불하고, AI 성능도 향상되기 때문에 AI·콘텐츠 기업 모두가 상생할 수 있다”고 했다.