지난달 15일 소셜미디어(SNS) 틱톡은 이용자가 특정 문구를 넣으면 AI(인공지능)가 자동으로 관련 이미지를 만들어주는 ‘AI 그린스크린’ 기능을 도입했다. ‘공원을 산책하는 강아지’ ‘나무에 걸린 달’ 같은 문구를 넣으면 AI가 이미지를 만들어내고, 사용자는 이를 틱톡 촬영 영상의 배경화면으로 쓸 수 있다. IT 매체 더버지는 “틱톡과 같은 인기 앱이 이런 기능을 도입한 것은 언어-이미지 변환 AI가 주류 기술로 자리 잡았다는 것을 의미한다”고 했다.

최근 언어-이미지 변환 AI 모델이 내놓는 결과물은 품질이 상당히 높다. ①기자가 직접 스테이블 디퓨전에서 중세, 도적 두목 등 키워드 20여 개를 넣어 만든 그림. ②달에서 말을 탄 우주비행사라는 키워드를 바탕으로 DALL·E2가 그린 작품. ③미드저니에서 좀비, 자동차, 레이싱이라는 키워드를 넣어 만든 그림. ④구글 이매젠이 만든 밀짚모자를 쓴 선인장 그림. /스테이블 디퓨전·오픈AI·미드저니·구글

최근 언어-이미지(텍스트 to 이미지) 변환 AI 기술이 실생활에 빠르게 적용되고 있다. 누구나 단어 몇 개만 AI 모델에 넣으면 전문가 못지않은 사진과 그림을 얻을 수 있어 폭발적 반응을 얻고 있다. 지금껏 나온 언어-이미지 변환 AI 모델은 10여 개에 달한다. 작년까지만 해도 이 기술은 선행 기술로 여겨졌지만 일반인에게 빠르게 보편화하는 것이다.

◇빠르게 확산하는 언어-이미지 변환 AI

사람이 언어를 입력하면 AI가 그림을 그리는 기술은 2020년 미국의 오픈 AI가 딥러닝(심층학습) 언어 모델인 GPT-3를 개발하면서 시작됐다. 오픈AI는 GPT-3를 기반으로 2021년 첫 번째 언어-이미지 변환 AI 모델인 ‘달리1′(DALL·E1)을 내놓았고, 올 1월 이를 개선한 ‘달리2′를 공개했다. 수백만개 이미지와 언어를 학습한 AI가 제시된 언어의 의미를 파악하고, 이미지를 이루는 단위인 픽셀 값을 조절해 언어에 맞는 그림을 만드는 원리다.

구글은 지난 5월 좀 더 사실적인 이미지를 만들 수 있는 언어-이미지 변환 모델인 이매젠(Imagen)을 선보였고, 메타도 지난 7월 메이크어신이라는 AI 모델을 공개했다. LG는 지난 6월 컴퓨터 비전 학회인 ‘CVPR’에서 언어-이미지, 이미지-언어 양방향 변환이 가능한 초거대 AI인 엑사원을 공개했다. 김승환 LG AI 연구원 비전랩장은 “GPT-3가 언어 변환 모델의 가능성을 열었고, 이후 언어-이미지 전환과 관련한 연구가 꾸준히 이어졌다”며 “현재는 많은 업체가 이미지 인식과 구현 등 AI 비전에 특화한 모델을 고도화하고 있다”고 했다.

자료=각사·업계

◇단어 몇 개 넣으면 삽화가 뚝딱

최근엔 일반인들도 쉽게 이용할 수 있는 언어-이미지 변환 모델이 등장하면서 확산 속도가 빨라졌다. 대표적인 것이 미드저니와 스테이블 디퓨전 프로그램이다. 실제 기자가 스테이블 디퓨전에서 ‘중세시대’ ‘도적 두목’ ‘리얼한 피부’ ‘가죽 재질’ ‘디테일한 표현’ ‘4K(해상도)’라는 영어 단어 20여 개를 넣어봤더니 20초 후 화면에 가죽 재질의 옷을 입고 한 손에 칼을 들고 노려보는 중세 시대 복장을 한 남성 얼굴이 나타났다.

일부 콘텐츠 기획자는 미드저니와 스테이블 디퓨전이 만든 그림을 콘텐츠 내 삽화로 적극적으로 활용하고 있다. 크레용, 나이트카페와 같은 언어-이미지 변환 모델은 상업 서비스를 시작했고, 이스라엘의 모바일 사진 편집앱 스타트업인 라이트릭스도 같은 서비스를 내놨다.

◇딥페이크 사기, 저작권 등 문제도 산적

테크 업계 관계자는 “이는 인공지능 개발의 한 단계”라며 “앞으로 언어-이미지 변환을 넘어 언어-청각이나 후각 등 인간의 오감(五感)을 AI가 재현하는 순간이 올 수 있다”고 했다. 하지만 모두가 언어-이미지 변환 기술을 환영하는 것은 아니다. 지난달 29일(현지 시각) 미 콜로라도 주립 미술 박람회에서 미드저니로 그려진 ‘우주 오페라 극장’이라는 작품이 1위를 차지했는데, 예술가들은 “역겨운 일”이라며 강하게 반발했다.

또 AI 가 그린 그림의 저작권과 소유권에 대한 문제도 있다. 키워드를 넣은 사람의 것인지, AI 개발자의 것인지, AI 자체의 것인지 불명확하다는 것이다. 일각에선 언어-이미지 변환 AI 기술로 실존 인물의 얼굴을 합성해 범죄에 활용하는 딥페이크 사기가 만연해질 위험이 있다고 본다. AI 알고리즘을 통해 학습된 사회적 편견과 오류가 언어-이미지 변환 모델이 내놓는 결과물에도 반영될 수 있다는 지적도 나온다.