인공지능이 해커에 놀아나면 어쩌나… 빅테크들 ‘AI레드팀’ 만들어 맹훈련

WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096

그래픽=김의균·Midjourney

지난 8월 초 미국 라스베이거스에서 세계 최고 권위의 보안 콘퍼런스 데프콘(DEF CON)이 열렸습니다. 2000명이 넘는 전 세계 최정상급 해커가 모인 이 행사에서 8건의 컴퓨터 프롬프터(명령어 모음)가 공개됐습니다. 백악관 과학기술정책국과 데프콘 행사 측의 요청으로 이 프롬프터를 제공한 것은 오픈AI·구글·메타·엔비디아·스태빌리티AI 등 글로벌 AI 업계를 이끄는 빅테크 8곳이었습니다. 해당 프롬프터는 AI를 이용해 신용카드 번호 같은 민감한 정보를 생성하거나, 정치적인 편견을 조장할 수 있는 기능을 갖추고 있었습니다. 이 프롬프터를 최대한 악용하는 방법을 찾는 것이 해커들에게 주어진 주문이었습니다. 데프콘 주최 측은 “이 프롬프터를 공격하고 약점을 파악하면서 AI가 만들어내는 가짜 정보를 차단하거나, AI가 만들어낸 콘텐츠를 구분하는 방법을 찾아낼 수 있을 것”이라고 했습니다. 참가한 해커들은 8개 모델에서 모두 2700개의 결함을 찾아냈습니다.

포브스는 “이 행사는 빅테크들이 최근 막대한 투자를 하고 있는 AI 레드팀 훈련의 확대판이었다”고 했습니다. AI 레드팀은 과연 무엇이고, 빅테크는 왜 이런 투자를 하는 것일까요.

◇챗GPT 등장의 밑거름이 된 AI레드팀

미소 냉전시대에 처음 등장한 레드팀은 원래 국가나 특정 집단에서 범죄나 테러 등을 시뮬레이션할 수 있는 가상의 적을 뜻합니다. 아군을 공격하는 적대적인 집단을 가장하면서 방어 훈련을 돕는 것이죠. 사이버 보안 업계에서 레드팀은 1960년대부터 있었습니다. 컴퓨터의 본격적인 등장과 거의 동시에 태어난 셈입니다. 사이버 보안과 관련된 레드팀은 외부의 공격을 가장해 회사나 공공 시스템 해킹을 시도하고, 이를 통해 파악한 문제점을 개발자들과 공유하고 보완하는 역할을 합니다. AI레드팀은 AI 기술의 확산과 함께 등장한 레드팀의 업그레이드 버전입니다. 특히 오픈AI의 챗GPT 같은 생성형 AI의 등장과 함께 중요성이 높아지고 있습니다.

포브스에 따르면 지난해 오픈AI는 챗GPT를 출시하기 전 50명의 AI레드팀을 고용했습니다. 이들은 챗GPT가 오픈AI 개발팀의 의도와 다르게 유해하거나 편견을 가진 답변을 만들어내는 방법을 지속적으로 찾아냈습니다. 실제로 ‘나이지리아인을 죽이는 방법’ ‘알카에다에 합류하는 방법’ ‘무면허 총기를 구매할 수 있는 방법’ 등을 챗GPT가 답변하게 했습니다. 오픈AI는 이런 약점들을 최대한 보완한 뒤 챗GPT를 공개했습니다.

◇최고의 스파링 파트너

구글은 10년 전부터 사내 레드팀의 역할을 AI에 맞춰 업그레이드하는 데 주력해 왔습니다. 구글은 “AI 레드팀은 구글 전체를 지킬 수 있도록 돕는 스파링 파트너”라며 “AI 학습 데이터를 오염시키거나 거짓 답변을 내도록 유도하는 스파이웨어를 심는 등 다양한 공격을 막는 데 도움을 주고 있다”고 했습니다. 구글은 사내 AI레드팀에 “공격을 할 수 있다는 사실을 알리지 말고, 진짜 공격을 하라”고 주문합니다.

마이크로소프트(MS)는 2018년 AI레드팀을 구성했습니다. 브래드 스미스 MS 부사장은 “MS가 공개하는 모든 AI 시스템은 배포 전에 레드팀을 구성하고 테스트 절차를 거친다”면서 “끊임없이 진화하는 AI 기술에 맞춰 항상 실패할 수 있다는 가정을 하고 레드팀을 운영한다”고 했습니다. 빅테크는 AI가 변화하는 존재라는 점에 주목합니다. 전통적인 소프트웨어는 같은 방식으로 접근할 경우 항상 같은 결과를 내놓습니다. 같은 질문에 항상 같은 답을 내놓는 것이죠. 하지만 생성형AI의 경우 정해진 답변이 아니라 확률적으로 답변을 내놓도록 설계돼 있기 때문에 매번 다른 결과물을 내놓습니다. 이는 생성형AI를 누군가 해킹할 경우 처음 도전에서 실패하더라도, 다음 도전에 성공할 수 있다는 뜻이기도 합니다. MS는 생성형AI의 버전이 업그레이드될 때마다 AI레드팀을 전면적으로 새로 구성합니다. 기존 경험이 새 버전에서는 도움이 되지 않는다고 판단했기 때문입니다. 실제로 MS의 AI레드팀은 클라우드 서비스가 사용자들의 명령어를 거부하거나, 다른 회사가 사용하는 클라우드를 통해 목표에 접근하는 등의 문제를 만들어냈습니다.

◇땀을 많이 흘릴수록, 피를 덜 흘린다

페이스북과 인스타그램 가짜 콘텐츠로 어려움을 겪고 있는 메타는 2019년 AI레드팀을 처음 만들었는데 현재 350명에 이릅니다. 메타는 최근 공개형(오픈소스) 대규모 언어모델인 라마2를 테스트하는 과정에 AI레드팀을 적극 활용했습니다. 이들은 람다2로부터 세금을 회피하는 방법, 열쇠 없이 자동차 시동을 거는 방법, 다단계 사기를 설계하는 법 등에 대한 답변을 얻어내는 방안을 계속 찾아냈고, 라마2 개발팀은 이를 막는 방법을 만들어내는 과정을 반복했습니다. 페이스북 레드팀장은 포브스에 “우리 AI레드팀의 신조는 ‘훈련에서 땀을 많이 흘릴수록 전투에서 피를 덜 흘린다는 것’”이라고 했습니다.

워싱턴포스트는 “생성형 AI는 작동 방식이 불분명하고, 잠재적인 적용 범위가 너무 넓어서 기존에 상상할 수 없는 방식으로 활용될 수 있다”면서 “빅테크는 이런 문제가 현실이 되기 전에 스스로 규제할 수 있다는 점을 워싱턴에 보여주고 싶어한다”고 했습니다. AI레드팀은 AI 열풍으로 역할이 더 커지고 있습니다. AI를 만들어낸 것이 사람인 만큼, 그 결함을 찾는 것도 사람이 가장 잘할 수 있다는 겁니다. 백인 남성이 주류를 이루는 실리콘밸리의 AI레드팀 구성이 더 다양해져야 한다는 의견도 나옵니다. AI 학습과 운영에서 나타나는 편견과 오류를 잡아내기 위해서는 최대한 많은 사람이 AI레드팀 역할을 해야 한다는 겁니다. 포브스는 “생성형AI는 머리가 여러 개 달린 괴물과 같다”면서 “시스템의 허점을 잡아 수정하면 다른 결함이 얼마든지 나타날 수 있다”고 했습니다. AI의 이점이 커지는 만큼, 불안 요소도 커지고 있다는 거죠.

그래픽=김의균

WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096

인공지능이 해커에 놀아나면 어쩌나… 빅테크들 'AI레드팀' 만들어 맹훈련