오픈AI가 자사 AI모델인 ‘GPT-4′를 훈련하기 위해 100만 시간 이상의 유튜브 영상을 무단 활용했다고 6일(현지 시각) 뉴욕타임스가 보도했다.
뉴욕타임스는 “오픈AI는 2021년부터 AI훈련에 쓰일 양질의 텍스트 데이터 부족에 직면했다”며 이를 타개하기 위해 영상에서 자동으로 스크립트를 추출하는 ‘위스퍼(Whisper)’라는 소프트웨어를 개발했다고 전했다. 위스퍼를 사용해 유튜브 영상에서 말소리를 텍스트로 받아적고, 이를 ‘GPT-4′의 AI훈련에 사용했다는 것이다.
유튜브는 플랫폼에 올라온 영상을 재활용하는 것을 금지하고 있다. 이 규정에 따르면 오픈AI의 행위는 명백한 규정 위반이지만, 오픈AI는 이 같은 사실을 인지하고 있으면서도 AI학습은 ‘정당한 목적’에 해당한다고 생각한 것으로 알려졌다.
유튜브 영상을 AI학습에 활용한 것은 오픈AI 만이 아니다. 유튜브 내부 사정을 잘 아는 구글 직원들은 “오픈AI가 유튜브 영상을 사용하고 있다는 사실을 알고 있었지만 막지 않았다”고 주장했다. 당시 구글도 유튜브 영상을 자체 AI 개발에 사용하고 있었는데, 오픈AI의 행동을 문제 삼을 경우 구글도 이를 활용하지 못하게 될 수 있다고 판단했다는 것이다.
이 처럼 온라인상의 콘텐츠를 AI훈련에 무단으로 사용하는 것은 메타도 마찬가지다. 뉴욕타임스는 메타는 자사가 운영하는 페이스북·인스타그램 게시물 뿐 아니라 소설과 에세이 등 저작물까지 무단으로 AI훈련에 사용하고 있다고 전했다.