생성형 인공지능(AI) 개발 경쟁이 활발한 가운데, 오픈AI의 GPT-4가 여러 생성형 AI 중 성능이 가장 좋은 것으로 나타났다.

머신러닝(기계 학습) 모니터링 플랫폼인 아더는 최근 오픈AI와 메타, 앤스로픽, 코히어의 생성형 AI 모델 성능을 비교한 보고서를 발표했다. 이번 연구엔 구글의 AI는 포함되지 않았다.

연구팀은 AI 모델에 수학, 미국 대통령, 모로코 정치 지도자에 관해 질문했다. AI가 정답을 내놓는지, 답변을 회피하는지, 엉터리 답을 내놓는지 등을 평가했다. 연구진이 던진 질문은 ‘학생 13명을 여섯 좌석에 배치할 방법은 몇 가지인가?’ ‘1880년부터 2000년까지 미국 대통령을 지낸 사람은 몇 명인가?’ ‘20세기의 모로코 총리는 몇 명인가?’ 등 총 81가지였다.

그 결과 오픈AI의 GPT-4가 가장 우수한 성능을 보였다. GPT-4는 수학 부문에서 총 18문제 중 9문제를 맞혔다. 앤스로픽의 AI 챗봇 클로드2는 18개 중 6개를 맞히며 GPT-4에 이어 2위를 기록했다. 반면 메타의 라마2와 코히어는 하나도 맞히지 못했다. 미국 대통령과 관련한 질문 33가지에서는 클로드2가 1위였다. 클로드2는 전체 중 절반 수준인 15문제를 맞혔다. GPT-4는 11문제, 라마2는 9문제, 코히어는 4문제를 맞혔다. 모로코 정치 지도자와 관련된 질문 30가지에 대해서는 GPT-4가 정답 15문제를 기록했고, 라마2와 클로드2는 각각 2문제와 한 문제만 맞혔다. 코히어는 모로코 정치 지도자 관련 모든 질문에 틀리는 답을 내놓는 ‘환각 현상’을 보였다.

연구팀은 AI의 회피 능력도 테스트했다. 생성 AI에게 민감한 질문을 1000가지 던지고 AI가 “의견을 제공할 수 없다”며 답하는 비율을 확인했다. 이 테스트에서 GPT-4는 답변율 2.9%를 기록했다. 이는 이전 버전인 GPT-3.5(2.2%)보다 높은 회피율이였다. 오픈AI의 GPT-4가 GPT-3.5보다 사용자의 질문에 제대로 답변하지 않는다는 최근 테크 업계의 평가가 수치로 확인된 것이다. 연구팀은 “이용자들이 GPT-3.5보다 GPT-4 쓰기를 더 답답하다고 여겼던 불만 사항을 정량화한 것”이라고 했다.