오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 챗GPT ‘o3’와 ‘o4-미니’가 이전 세대보다 성능이 향상됐지만, 환각(hallucination) 현상은 더 심해진 것으로 나타났다. 환각은 생성형 AI가 실제 존재하지 않는 정보나 맥락과 관련 없는 답변을 사실처럼 답하는 현상을 말한다.
20일 미국 IT 매체 테크크런치에 따르면 오픈AI는 자체 벤치마크 테스트인 퍼슨 QA에서 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보였다고 보도했다.
이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%인 것에 비하면 신작 모델들의 환각 반응이 거의 2배 이상 증가한 것이다. 또한 비추론 모델인 GPT-4o보다도 o3, o4-미니의 환각이 더 자주 발생한 것으로 드러났다.
앞서 오픈AI는 16일 “역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것”이라고 홍보하며 o3·o4-미니 모델을 공개했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 냈다. 이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록했다.
다만, 이 같은 기술적 성장에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그간 새 모델이 출시될 때마다 환각 문제는 점진적으로 개선됐으나, 이번 결과는 이례적이라는 평가다. 비영리 AI 연구소 ‘트랜슬루스’는 o3가 답변 도출 과정에서 수행 작업을 조작한 경향이 있다는 증거도 있다고 지적했다. 사라 슈웨트만 트랜슬루스 공동 창립자는 테크크런치에 “o3는 환각률 때문에 다른 버전보다 유용성이 떨어질 수 있다”고 봤다.
오픈AI 측은 o3와 o4-미니의 높은 환각률의 명확한 원인과 대책을 내놓지 못하고 있다. 오픈AI는 기술 보고서를 통해 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 했다. 이어 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다.