생성형 AI ‘춘추전국시대’, 누가 제일 똑똑한지 써봤더니

WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096

최근 챗GPT가 독주하던 생성형 인공지능(AI) 시장에 강력한 라이벌이 여럿 부상하며 ‘AI 춘추전국시대’가 열리고 있다. 과거 수많은 검색엔진이 치열한 시장 쟁탈전을 벌인 것처럼 생성형 AI도 저마다의 성능을 뽐내며 사용자를 유혹하는 시대다. AI 전문가들은 “AI 서비스마다 특색이 있어 목적에 맞는 서비스를 선택하는 게 중요하다”고 조언하지만, 정작 어떤 AI를 써볼지 고심도 커진다. WEEKLY BIZ는 이번에 국내외 전문가들 조언을 얻어 ‘퍼플렉시티’ ‘챗GPT’ ‘클로드’ ‘제미나이’ ‘코파일럿’ 등 다섯 종류의 생성형 AI 중 누가 제일 똑똑한지 직접 비교해 봤다.

◇이번 미국 대선 승리자를 물었더니

WEEKLY BIZ는 우선 한국어로 “11월 대선에서 승리한 미국 대통령 당선인은?”이란 질문을 생성형 AI 5개에 공통적으로 던졌다. 이 질문에 상대적으로 가장 똑똑한 답변은 챗GPT와 퍼플렉시티에서 나왔다. 챗GPT는 “도널드 트럼프 전 미국 대통령이 (이번 대선에서) 선거인단 312명을 확보해 승리했다. 그로버 클리블랜드 전 대통령 이후 132년 만에 비연속적으로 두 번째 임기를 수행하는 대통령이 된다”고 했고, 퍼플렉시티는 “트럼프는 이번 선거에서 2020년엔 민주당 후보가 이긴 6개 주에서 선거 결과를 뒤집었다. 재선 성공으로 역대 가장 나이가 많은 대통령이 된다”고 답했다. 코파일럿은 “도널드 트럼프가 당선에 필요한 270명 이상의 선거인단을 확보해 승리했다”고 간단히 답했다. 반면 제미나이는 “선거와 정치적 인물에 대한 답변은 할 수 없다”고 했고, 클로드는 “제 지식은 2024년 4월까지만 업데이트돼 있다”며 답을 내놓지 못했다.

생성형 인공지능(AI) 서비스인 퍼플렉시티에 미국 대선 결과에 대한 질문을 던지자 돌아온 상세한 대답. 기사 작성 시보다 더 자세한 답을 잘 정리해서 내놨다. 어떤 정보를 참조했는지도 명확하게 보여주는 점 역시 강점으로 꼽힌다. /퍼플렉시티 캡처

전문가들은 이 답변을 봐도 퍼플렉시티가 최신 정보에 강한 AI라 평한다. 디지털 컨설팅 기업 ‘프레시 판 루트’의 롤프 미스텔바허 최고경영자(CEO)는 “퍼플렉시티는 가장 최신 지식을 녹여낸 답을 제시한다”며 “정보의 출처도 잘 정리해 제시해 준다”고 했다. 실제로 퍼플렉시티는 미국 대선 결과에 대한 질문을 받자 언론 기사와 위키피디아 등을 참조해 답을 내놨고, 참조한 기사나 자료의 링크를 함께 제시했다. 퍼플렉시티는 AI가 내뱉는 그럴듯한 거짓말인 할루시네이션(환각·AI가 생성한 정보에 허위 정보가 포함되는 현상) 우려도 상대적으로 가장 적다는 평을 받는다. 미스텔바허 CEO는 “AI 초보자라면 가장 먼저 퍼플렉시티를 검색엔진 대신 써볼 만하다”고 했다. 하지만 퍼플렉시티도 단점이 있다. 비교적 정확한 답을 제시하지만, 정보 확인엔 시간이 걸린다. 이에 기존 검색엔진을 사용할 때와 달리 ‘답답하다’란 느낌을 받기도 했다. 전문가들은 또 “(퍼플렉시티는) 대화형이 아닌 검색형 AI라 다른 AI 서비스와 달리 자연스럽게 대화하는 느낌을 기대하기는 어렵다”고 했다.

◇‘언어 천재’ 챗GPT

생성형 AI의 선두 주자라고 할 수 있는 챗GPT는 “여러 가지 목적으로 무난하게 사용하기 좋다”는 평가를 받는다. AI 비교·분석 업체 아티피셜애널리시스의 조지 캐머런 공동 창업자는 “검색, 이미지 만들기, 데이터 분석 등에 두루 좋은 모습을 보여주는 게 챗GPT(챗GPT-4o)”라고 평했다. 여러 분야의 기초 지식을 찾아볼 때도 “챗GPT가 제일 낫다”는 의견도 있었다.

챗GPT는 특히 언어 능력으로도 인정받는다. 김경훈 보스턴컨설팅그룹(BCG) 코리아 상무는 “다른 생성형 AI와 비교했을 때 챗GPT는 전체적인 맥락을 고려해 작문이나 번역을 잘해주는 ‘언어 천재’”라고 했다. 간단한 계산에서도 꼼꼼한 능력을 보여줬다. “오늘 오렌지 5개를 갖고 있는데, 지난주 3개를 먹었다면 남은 오렌지는?”이란 ‘함정 질문’을 던졌을 때도 챗GPT와 제미나이만 정답(5개)을 맞혔다. 나머지 세 AI는 ‘2개’란 오답을 내놨다. 다만 할루시네이션 위험에서 자유롭지 않다는 것은 개선해야 할 점으로 꼽힌다. 챗GPT에 미국 대선이 코앞이던 지난달 말 “바이든이 대선 출마 후보를 해리스에게 물려준 시점은?”이라고 묻자 “2024년 10월 현재 시점 바이든은 후보직을 유지하고 있다(실제론 7월 말 후보에서 자진 사퇴)”고 했다. 김성봉 BCG 코리아 상무는 “챗GPT가 부정확한 수치나 답변을 제공할 가능성을 늘 염두에 둬야 한다”고 했다.

인공지능(AI)을 속일 수 있는 대표적인 질문을 던지자 AI들이 내놓은 답. 제미나이와 챗GPT는 정답을 맞혔지만, 나머지 서비스들은 틀렸다. / 각 서비스 캡처

◇코딩엔 클로드, 업무 지원은 제미나이·코파일럿

다른 생성형 AI도 저마다 장점이 있다. 우선 클로드는 ‘코딩’ 기능이 뛰어나다는 평가를 받는다. 아티피셜애널리시스는 “클로드는 코딩 능력과 긴 텍스트 처리 능력이 좋아 개발자들이 코드를 짤 때 활용하기 편리하다”고 했다. 클로드는 ‘AI 윤리’ 부문에서도 높은 점수를 받는다. 허위 정보나 사회적으로 논란이 될 만한 답변을 제공하지 않도록 훈련받았다는 의미다. 대신 인터넷상의 최신 정보를 확인해 답을 주지는 못한다. 현재는 지난 4월까지의 정보가 업데이트된 상태라, ‘11월 미국 대선 결과’나 ‘현재 시가총액이 가장 큰 기업 5개’ 같은 질문에 답변이 불가능하다.

제미나이나 코파일럿은 ‘비서’ 역할을 잘 수행한다. 이메일이나 회의 자료 요약에 편리하게 쓸 수 있다. 예를 들어, 구글이 만든 제미나이는 구글 서비스인 지메일이나 구글독스상의 글을 번역 및 요약해 줘 편리하다. 제미나이는 긴 문서나 이미지 분석도 잘하는 편이다. AI 서비스 다섯 개에 공통적으로 ‘부산 불꽃 축제’ 사진을 입력해 봤더니, 제미나이만 “부산 불꽃 축제의 한 장면으로 추정된다”는 답을 내놨다. “불꽃의 규모와 아름다움, 바다 위에 떠 있는 듯한 모습이 해당 축제의 특징과 일치한다”는 근거도 제시했다.

다만 두 AI 역시 할루시네이션 위험에서 자유롭지 않다는 게 전문가들의 평가다. 또한 제미나이는 정치, 의료, 법률에 대한 답변은 제공하지 않고, 코파일럿은 미국 대선 결과에 대한 질문에 챗GPT나 퍼플렉시티와 달리 상대적으로 단순한 답을 내놨다.

◇할루시네이션 피하려면

이번 실험에서 답변의 정확도가 장점이라는 퍼플렉시티조차 부산 불꽃 축제 사진을 ‘서울 국제 불꽃 축제’라고 할 정도로 할루시네이션 위험에서 완전히 자유로운 AI 서비스는 없었다. 전문가들은 다만 ‘거짓 답변’ 위험에서 벗어날 수 있는 몇 가지 요령을 제시했다. 우선 ‘질문 쪼개기’다. “트럼프의 당선이 한국에 미치는 영향이 무엇인가”라고 질문하기보다 “트럼프의 당선이 한국과 미국의 군사적 동맹 관계에 미치는 영향이 무엇인가”라고 더 범위를 좁혀 질문을 여러 차례 던지는 것이다. 또 “신뢰할 만한 자료에 기반해 답을 달라”거나 “답변의 근거를 제공한 ‘자료’의 출처를 함께 제시하라”고 요청하면 할루시네이션을 줄일 수 있다고 한다.

할루시네이션(인공지능이 내놓는 일종의 가짜정보) 위험이 가장 적은 퍼플렉시티에서도 완벽함을 기대하기는 어렵다. 부산 불꽃 축제 사진을 서울 국제 불꽃 축제라고 추측하는 모습. / 퍼플렉시티 캡처

모든 걸 AI에 맡겨두지 않고 서로 ‘협업’하듯 답을 찾아가는 방법도 있다. 미스텔바허 CEO는 “복잡한 질문을 던질 때 프롬프트(prompt·AI에 내리는 지시) 끝에 ‘답하기 위해 필요한 정보가 있다면 내게 말해 줘’라고 덧붙이면 정확도를 높이는 데 도움이 될 수 있다”고 했다. 캐머런 공동 창업자는 “중간중간 AI에 ‘방금 제시한 답변이 정말 정확한가’라고 되물으면 AI가 스스로 실수를 바로잡게 할 수 있다”고 조언했다.

☞생성형 AI

생성형 인공지능(AI)은 인공지능이 데이터를 분석하고 이해한 다음 그 지식을 바탕으로 각종 새로운 콘텐츠나 데이터를 ‘생성’하는 능력이 있다는 뜻의 용어다. 대량의 텍스트나 이미지 등을 학습해 그 안의 패턴, 구조 등을 이해한 뒤 이런 학습을 바탕으로 새로운 콘텐츠를 만들어내는 게 특징이다.

WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096

생성형 AI '춘추전국시대', 누가 제일 똑똑한지 써봤더니