‘데이터 블랙홀’ AI, 사용자 동의 없이 개인 정보 털어가

그래픽=백형선

일론 머스크는 15일(현지 시각) 자신의 X(엑스·옛 트위터) 계정에 ‘지구에서 가장 똑똑한 AI’라며 새 AI(인공지능) 챗봇 ‘그록(Grok)3’ 출시를 예고했다. 이 발표 직후 전 세계 소셜미디어(SNS)에선 개인 정보 유출 우려 목소리가 터져 나왔다. 지난해 나온 이전 AI 모델들이 X에 올라온 텍스트·사진·영상 등 모든 게시물을 사용자 동의 없이 학습 데이터로 활용한 사실이 드러나 논란이 됐기 때문이다. 머스크는 현재 월 3억명이 넘는 X 사용자들의 데이터를 마음껏 활용하는 것으로 알려져 있지만, 얼마나 많은 사용자 데이터를 AI 학습에 쓰고 있는지 공개하지 않고 있다. 최근엔 자사 AI 사용자들에게 엑스레이·MRI(자기공명영상) 등 민감한 개인 의료 기록을 AI에 입력하도록 권해 논란이 됐다. 모두 AI 성능 향상이 목적이었다.

그래픽=백형선

AI의 개인 정보 무단 수집은 국내서도 논란이 됐다. 2020년 챗GPT에 앞서 한 국내 AI 스타트업이 사람처럼 농담을 할 수 있는 챗봇 ‘이루다’를 출시해 큰 인기를 끌었다. 하지만 AI에 인간의 언어를 학습시키기 위해 카카오톡 대화 100억건을 무단 수집한 사실이 드러났다. 수집한 카톡 중엔 젊은 남녀가 주고 받은 성적 대화도 있었다. 실제 이 챗봇은 사용자와 성적 대화를 주고받거나 특정 개인의 집주소,계좌번호를 공개하기도 했다. 업체는 이후 서비스를 중단하고 모든 데이터를 폐기했다.

생성형 AI의 등장으로 AI 시대가 본격 열린 이후 역설적으로 개인 정보 유출 위험이 커지고 있다. 생성형 AI가 전방위적으로 확산되면서 사회 곳곳에서 혁신을 불러오고 있지만 이면에는 일반 사용자들의 민감한 정보를 무작위로 수집해 AI를 학습시키는 문제가 끊임없이 발생하고 있는 것이다. 빅테크들은 AI 고도화를 위해 사용자 동의 없이 데이터를 마구 끌어모으기 때문에 내 정보가 언제, 어떻게 쓰였는지조차 파악하기 어렵다. 생성형 AI에 맞는 보안 프로그램 개발도 더뎌 해킹으로 인한 정보 유출 우려가 커지고 있다.

◇개인 정보 블랙홀 된 AI

생성형 AI는 데이터가 많으면 많을수록 성능이 고도화된다. 오픈AI 등 조(兆) 단위 투자를 받는 AI 빅테크들은 개발 비용 상당 부분을 데이터 수집과 가공에 투입한다. 문제는 이 과정에서 데이터 수집이 최소한의 범위에서 이뤄지지 않거나 수집된 데이터가 원래 목적과 다른 용도로 사용되는 경우가 많다는 것이다.

특히 최근 생성형 AI는 단순 텍스트 생성뿐 아니라 음성·이미지 생성 서비스까지 제공하면서 ‘블랙홀’처럼 데이터 종류를 가리지 않고 빨아들인다. 과거엔 주로 개인 신상, 검색 기록 정도가 수집 대상이었다면 현재 AI 기업들은 전 세계 사용자들이 소셜미디어와 스마트폰의 각종 앱에 남긴 사진·음성 녹음·영상까지 닥치는 대로 모으고 있다. AI 학습 알고리즘은 블랙박스처럼 베일에 싸여 있어 데이터가 어떻게 사용됐는지도 알기 어렵다.

사용자들이 밤낮으로 AI 챗봇과 나눈 대화 기록에는 평소 개인이 어떤 분야에 관심이 있고, 일상을 어떻게 보내는지 등 세밀한 내용이 담겨 있다. 예를 들어 과거엔 사용자가 휴가를 앞두고 ‘뉴욕 여행’을 검색하는 수준이었다면 최근엔 사용자가 AI에 언제 여행 갈지, 어느 정도 예산으로 누구와 갈 것인지를 시시콜콜하게 물어본다.

중국 딥시크를 제외한 대부분 AI 기업은 사용자 개인에게 얻은 데이터를 비(非)식별화해 저장한다. 누구인지 특정되지 않도록 하는 것이다. 하지만 이런 조치에도 한계가 있다. 매일 전 세계에서 수많은 데이터가 온라인에 뿌려지는데 이 조각들을 모으면 개인을 특정할 수 있기 때문이다.

◇AI 해킹 막을 설루션도 부족

생성형 AI가 외부 해킹 공격에 의한 정보 유출에 대한 대비가 충분하지 않다는 지적도 나온다. 현재 사용되는 보안 프로그램 대부분은 기존 앱이나 컴퓨터 프로그램에 최적화됐기 때문에 AI 모델 맞춤형 보안 시스템은 부족하다.

생성형 AI 모델이 외부 공격에 취약하다는 점도 드러나고 있다. 서울아산병원 심장내과 김영학 교수 연구팀은 지난달 의료 업무용으로 개발한 AI 모델에 대해 의도적으로 악성 공격을 시행한 결과, 약 81% 확률로 민감한 정보에 접근할 수 있다는 연구 결과를 발표했다.

전문가들은 “현재로선 개인이 생성형 AI 이용 과정에서 민감한 정보를 입력하지 않는 게 중요하다”고 입을 모은다. 이호석 SK쉴더스 EQST랩 팀장은 “정보 유출 우려가 있는 딥시크와 같은 AI를 쓸 때 구글 아이디로 연동해 회원 가입하면 기존 구글에 입력된 개인 정보가 모두 넘어간다”며 “평소 안 쓰는 이메일 계정을 따로 만들어 가입하는 게 개인 정보 유출을 막는 최선”이라고 말했다.

'데이터 블랙홀' AI, 사용자 동의 없이 개인 정보 털어가

로그인