문재인 대통령이 2021년 7월 14일 청와대에서 열린 제4차 한국판 뉴딜 전략회의에서 발언하고 있다. /청와대

문재인 정부가 ‘한국판 뉴딜’이란 명목으로 2020년부터 추진한 ‘AI 데이터 사업’이 총체적 부실로 1000억원 넘는 돈을 낭비한 것으로 감사원 감사 결과 드러났다. 이 사업 예산은 2020년 7월 기존의 390억원에서 3315억원으로 7.5배로 늘었고, 정부는 그 뒤로 매년 이 사업에 3700억원 이상을 집행하고 있다. 문재인 정부 마지막 해였던 2022년에는 이 사업에 6732억원이 들어갔고, 내년까지 총 2조4972억원이 투입된다. 감사원이 이 가운데 첫 2년(2020·2021년) 동안 나온 사업 결과물을 점검해봤더니, 3분의 1가량이 부실 결과물이었다.

◇개당 19억원짜리 데이터 뭉치 3분의 1이 ‘무용지물’

23일 감사원이 공개한 ‘지능정보화사업 추진 실태’ 감사 보고서에 따르면, 한 민간 IT 업체는 2020년 정부로부터 ‘인공지능(AI) 학습용 데이터 구축 사업’ 일감을 수주했다. 달걀, 소고기 등 축산물 사진을 수만 장씩 찍거나 확보해, 사진 파일 수만 건으로 이뤄진 데이터 뭉치를 만드는 것이었다. 정부가 이 데이터 뭉치를 일반에 공개하면, 기업들이 AI에게 이 데이터 뭉치를 학습시켜 ‘달걀 겉모습만 보고 달걀 품질을 판정하는 AI’ ‘소고기 겉모습을 보고 1++등급 등심과 2등급 안심을 구분하는 AI’ 같은 것을 만들 수 있었다.

그러나 이 업체가 낸 데이터 뭉치는 AI를 학습시키는 데 쓸 수 없는, ‘쓰레기 데이터’였다. 정부의 요구는 A~D 등급 달걀 사진을 1만6000장씩 총 6만4000장 내라는 것이었다. 그러나 이 업체가 제출한 사진은 B등급 달걀 사진 43장(0.07%)에 불과했다. 이 업체는 소고기 사진도 5개 등급별로 1만6000장씩 8만장을 내야 했지만, 1등급 사진은 하나도 없었고 2·3등급 소고기 사진만 몇천 장씩 내고 말았다. 1등급 소고기 사진이 없는 데이터로 AI를 학습시켜서 1등급과 2·3등급 소고기를 구분하게 할 수는 없다. 그런데도 이 업체는 정부로부터 19억원을 받았다.

감사원에 따르면, 이 사업을 통해 2020·2021년 만들어진 데이터 뭉치 360개 가운데 122개(33.8%)가 AI 학습에 제대로 쓸 수 없는, 품질 기준 미달 상태였다. 이 122개 데이터 뭉치를 만드는 데 들어간 나랏돈은 1148억원이었다.

다른 업체가 만든 ‘스포츠 사람 동작(축구)’ 데이터 뭉치는 사람이 축구 동작을 하는 사진 수만 건으로 돼 있었다. 그런데 일부 사진은 사진 속 사람이 하는 동작이 무슨 동작인지에 대한 설명이 빠져 있었다. 태클을 하는 것인지, 슬라이딩을 하는 것인지, 반칙 장면인지, 정상 플레이 장면인지 등의 표시가 돼 있지 않았다. AI를 가르치는 데 쓸 교과서를 만들어 오랬더니 파본을 낸 셈이다. 또 다른 업체는 청력 검사 결과 자료를 10만8167건 모아 냈는데, 각 자료에 대한 설명 10만8167건과 연결돼 있지 않았다. 도서관이 책 500권을 납품받았는데 500권의 책 표지가 모두 뜯겨 있는 것과 마찬가지여서, 데이터로서의 가치가 없다. 그런데도 두 업체는 정부로부터 각각 19억원, 18억원을 받았다.

한 업체는 ‘가축 행동 영상’ 데이터 뭉치를 만드는 사업을 수주해 19억원을 받았는데, 그 4분의 3가량인 13억9000만원을 횡령했다. 정부에는 여러 축산농가 축사에 돈을 주고 감시용 CCTV 카메라를 설치해 가축들의 움직임을 촬영해서 데이터를 만들겠다고 했는데, 실제로는 각 축산농가에 ‘CCTV 카메라를 무료로 설치해줄 테니 영상 데이터는 그냥 가져갈 수 있게 해달라’고 해서 사업비는 쓰지 않고 데이터를 챙겼다. 가족 명의 다른 업체에 ‘컨설팅’을 맡기는 계약을 해서 수억원을 쓴 것으로 처리하는 수법으로 돈을 빼돌리기도 했다.

◇기재부까지 ‘데이터 사업 걱정된다’ 감사 요청

감사원은 ‘AI 데이터 사업’ 규모가 갑자기 커지면서, 사업 규모가 사업 관리를 맡은 과학기술정보통신부 산하 한국지능정보사회진흥원(지능정보원)이 감당할 수 있는 범위를 넘어섰기 때문에 이런 일들이 벌어진 것으로 봤다. 감사원 관계자는 본지 통화에서 “정부가 AI 데이터 사업 규모를 2020년 갑자기 기존의 7배 이상으로 늘리면서, 지능정보원의 기존 인력과 조직으로는 여러 사업에 대한 문서 상 관리를 하는 것만으로도 벅찬 상황이 된 것으로 보인다”고 했다.

정부 내에서도 이 사업이 부실하게 진행되고 있다는 우려가 제기됐던 것으로 알려졌다. 본지 취재를 종합하면, 정부 사업 예산을 편성·배분하는 기획재정부는 지난해 감사원과의 협의 자리에서 감사원에 ‘AI 데이터 사업’의 부실 또는 부패 가능성이 의심된다며 감사에 나서 달라고 요청했다. 이에 대해 감사원은 ‘여러 문제가 있다는 것을 인지해 이미 감사를 진행하고 있다’고 답했다고 한다.

◇'정보화’ 사업인데 행정 처리는 사람 손으로

정부와 지방자치단체가 진행하는 각종 정보화 사업 관련 행정 처리가 사실상 수기(手記)로 이뤄져 왔다는 사실도 이번 감사를 통해 드러났다. 감사원에 따르면, 각 중앙행정기관과 지자체는 여러 정보화 사업이 중복돼 이뤄지는 것을 막기 위해, 현재 하고 있는 사업에 관한 세부 내역을 지능정보원에 제출해야 한다. 그런데 각 기관과 지자체 담당자들은 각 사업 세부 내역에 관한 문서를 워드프로세서와 엑셀로 일일이 작성해, 이를 공문에 첨부해 지능정보원으로 보내고 있었다. 지능정보원 직원들은 공문을 하나하나 열어서 안에 있는 내역을 옮겨 적고, 내용에 오류가 있을 때는 해당 기관 담당자에게 전화해 고치는 방식으로 일하고 있었다. 이들이 이런 식으로 처리한 문서는 2018년부터 2022년까지 5년간 6만309건에 달했다.

지능정보원과 과기정통부도 이런 업무 방식이 극도로 비효율적이라는 것을 알고 있었다. 그래서 이들은 이를 자동화하는 시스템 구축을 추진했지만, 행정안전부가 ‘우리가 운영하는 범정부 포털 사이트와 겹친다’며 반대해 무산됐다. 그래놓고는 이 자동화 시스템에 필요한 기능을 범정부 포털에 넣어놓지 않았다.

감사원은 지능정보원에는 기관 주의를 주고, 횡령 혐의가 포착된 민간 업체 관계자들에 대해서는 검찰에 수사를 요청했다. 과기정통부에 AI 데이터 사업으로 만들어진 데이터 뭉치들을 점검해, 부실 데이터를 냈거나 횡령을 한 업체들을 찾아 사업비를 회수하는 등의 조치를 하라고 통보했다. 또 과기정통부와 행안부에는 정보화 사업 행정 처리 업무를 범정부 포털에서 처리할 수 있게 협의하라고 했다.

과기정통부 관계자는 “감사원이 품질이 기준에 미달한다고 지적한 데이터 뭉치 122개에 대해, 사업 수행 업체들에 보완을 요구해 대다수 데이터의 보완이 곧 완료될 예정”이라며 “감사원이 지적한 다른 문제점들에 대해서도 다음 달까지 모두 조치할 것”이라고 했다.