오픈AI의 챗GPT 등장 후 생성형 인공지능(AI) 서비스가 쏟아지자 덩달아 수혜를 본 산업이 있다. 문서나 사진, 음성, 영상 등 각종 데이터에 각주를 달아 담긴 내용을 분류하는 ‘데이터 라벨링’이다. 그동안 이 작업은 데이터의 내용을 일일이 구분해야 해 ‘디지털 시대의 인형 눈알 붙이기’로 불렸지만, 최근 AI 학습용 데이터의 수요가 폭발적으로 늘면서 주요 산업으로 급부상하고 있다. 한국수출입은행에 따르면 글로벌 AI 학습 데이터 라벨링 시장 규모는 2021년 10조8000억원에서 2025년 39조4000억원으로 연평균 38.4% 성장할 것으로 예상된다.
데이터 라벨링 기업들은 보통 크라우드 소싱 방식으로 불특정 다수의 인력을 모집해 데이터 분류 작업을 맡긴다. 이렇게 모아 만든 데이터 묶음을 다른 기업에 파는 방식이다. 요즘은 AI를 학습시켜 각주를 다는 등 자동화 전환이 이뤄지고 있다.
국내 대표 데이터 라벨링 전문 기업 크라우드웍스는 작년 1~3분기 매출액이 179억원으로 전년 동기 매출(77억원) 대비 132% 늘어났다. 생성형 AI 모델 ‘하이퍼클로바X’를 공개한 네이버를 비롯해 카카오와 삼성전자, KT 등 430여 고객에 맞춤형 데이터를 제공한 덕분이다. 작년 8월엔 코스닥 상장에도 성공했다. 1억5000만건의 AI 학습 데이터를 구축한 셀렉트스타는 작년 8월 산업은행 등에서 40억원의 신규 투자를 유치했다. 또 다른 AI 데이터 라벨링 기업 에이모 역시 작년 9월 144억원 규모의 프리 IPO(상장 전 지분 투자)를 마무리했고, 자율 주행용 데이터를 가공하는 테스트웍스도 지난해 50억원의 투자를 유치했다.
해외에선 이미 데이터 라벨링 분야 유니콘 기업(기업 가치 10억달러 이상의 비상장 스타트업)이 등장했다. 미국 스타트업 스케일AI는 2021년 3억2500만달러(약 4300억원)의 투자를 유치하며 기업 가치 73억달러(약 9조7000억원)를 인정받았다. 스노클AI 역시 같은 해 8500만달러의 투자금을 유치하며 유니콘에 등극했다. 테크 업계 관계자는 “AI가 인터넷 같은 범용 기술로 자리 잡는 만큼, 데이터 라벨링 수요는 앞으로 더욱 늘 수밖에 없다”고 했다.