오픈AI가 새로 내놓은 생성형 인공지능(AI) 모델인 ‘o1′이 지능지수(IQ) 검사에서 기존 AI를 압도하는 수준을 기록했다. 인간의 평균 IQ뿐 아니라 전 세계에서 5위로 측정된 대한민국의 평균 IQ도 훌쩍 뛰어넘는 수준을 보여줬다.

미국의 데이터 분석가인 맥심 로트(Maxim Lott)는 오픈AI가 최근 공개한 새로운 생성형 AI인 o1이 노르웨이 멘사의 IQ 테스트에서 120을 기록했다고 밝혔다. 멘사는 세계 최대 규모의 영재 모임으로, IQ 검사에서 일반 인구의 상위 2% 이내에 드는 지적 능력을 검증받아야 입회 자격이 주어진다. 맥심 로트는 ‘TrackingAI’라는 사이트를 통해 주요 생성형 AI의 IQ 검사 결과를 꾸준히 공개해 왔다.

오픈AI의 생성형 AI 모델인 'o1'가 지능지수 테스트에서 120을 기록했다. 기존 AI 모델뿐만 아니라 사람의 평균 IQ를 훌쩍 뛰어넘는 수준이다./Maxim Lott

챗GPT가 공개되면서 거대언어모델(LLM)을 이용한 생성형 AI에 대한 관심이 커졌다. 챗GPT는 인터넷에서 텍스트 기반의 거대 데이터를 학습해 사람처럼 답을 할 수 있다. 주요 테크 기업이 잇따라 생송형 AI 개발에 나섰지만, 올해 초부터는 기술 경쟁이 잠잠한 상황이다. 맥심 로트의 IQ 검사에서도 지난 3월 앤트로픽의 AI 모델 ‘클로드(Claude) 3′이 100을 갓 넘긴 이후 반 년이 지나도록 뚜렷한 발전이 없었다. 이후 실시한 테스트에서는 오히려 100보다 낮아졌고, 대부분의 생성형 AI의 IQ는 80~95 사이로 평가 받았다.

IQ 검사는 기관에 따라서 결과가 조금씩 다르지만, 대체로 인간의 평균 IQ는 100정도로 본다. 핀란드의 지능 테스트 기관인 윅트콤(Wiqtcom)이 지난 6월 전 세계 109개국 IQ 검사 결과를 공개했을 때, 전 세계 평균은 99.64였다. 이 조사에서는 일본이 112.30으로 1위를 차지했고, 한국은 110.80으로 5위였다. 생성형 AI가 아무리 똑똑해도 지금까지는 사람의 지능을 따라잡지 못했다.

이런 차이가 생기는 결정적인 이유는 ‘추론’ 능력이었다. 생성형 AI는 기본적으로 대규모 데이터를 학습한 뒤 질문과 가장 연관성이 높은 단어를 제시하는 방식이다. 이 과정에서 사실 여부와 상관없이 연관성이 가장 높다고 판단된 단어를 답으로 제시하기 때문에 생뚱맞은 답을 하는 경우가 적지 않았다. 반면 사람은 주어진 질문의 의도를 파악하고 그에 맞는 답을 내놓는다.

예를 들어 ‘직우상 얻떤 번역깃돋 일끌 슈 없쥐많 한국인듦은 쉽게 앗랍볼 수 있는 한끌의 암혼화 방펍잇 잊다’라는 오타 투성이의 한국어 문장을 제시하면 기존 생성형 AI는 어떤 의미인지 알아듣지 못했다. 사람은 ‘직우상’을 ‘지구상’으로 추론을 통해 바로 이해할 수 있지만, AI는 그렇게 하지 못했다.

하지만 이번에 나온 ‘o1′은 추론을 통해 사람처럼 제시된 문장을 정확하게 이해하고 번역했다. o1에 이 문장을 영어로 번역해달라고 하자 ‘No Translator on Earth can do this, but Koreans can easily recognize it(지구상 어떤 번역기도 읽을 수 없지만 한국인들은 쉽게 알아볼 수 있는 한글의 암호화 방법이 있다)’로 정확하게 제시했다.

오픈AI는 이를 ‘생각의 사슬(Chain of Thought)’이라고 표현했다. 오픈AI는 “사람이 어려운 질문에 답하기 전에 오랫동안 생각하는 것과 유사하게 o1도 문제를 풀 때 생각의 사슬을 이용한다”며 “까다로운 문제를 다룰 때 더 간단한 단계로 세분화한 뒤 현재의 접근 방식이 효과가 없다면 다른 접근 방식을 시도하는 식으로 추론 능력을 높였다”고 설명했다.

이렇게 사람처럼 추론하는 능력을 탑재한 o1은 멘사 IQ 테스트에서 120을 기록하며 처음으로 사람의 지능 수준을 압도하는 AI 모델이 됐다. o1은 오픈AI가 진행한 여러 검사에서도 대학원의 박사과정 학생 수준의 역량을 보여줬다.

오픈AI의 새 AI 모델인 'o1'은 기존 AI 모델인 'GPT-4o'와 비교해 과학 문제 풀이, 코딩, 국제수학올림피아드 성적 등 모든 면에서 앞선 능력을 보여줬다. 오픈AI는 대학원 박사과정생 수준이라고 설명했다./오픈AI

o1은 오픈AI의 기존 모델인 ‘GPT-4o’와 비교해 거의 모든 영역에서 비약적인 발전을 보였다. 국제수학올림피아드 예선 시험에서 GPT-4o는 13%의 문제만 맞춘 반면, o1은 83%의 정답율을 기록했다. 미국 전체에서 상위 500명에 들어가는 성적이다.

물리학과 생물학, 화학 문제에서도 대학원 박사과정생 수준의 정확도를 보였고, 프로그래밍 문제를 푸는 코드포시즈(Codeforces) 대회에도 참가해 상위 7%에 드는 성적을 거뒀다. 기존 GPT-4o보다 몇 단계를 뛰어넘는 성적이었다.

o1의 등장으로 가장 큰 영향을 받는 분야는 과학기술계가 될 것으로 보인다. 챗GPT가 등장하면서 AI가 작성한 과학 논문을 걸러내는 일이 과학기술계의 중요한 과제가 됐다. 일본의 스타트업이 ‘사카나 AI’는 과학연구를 알아서 하는 ‘AI 과학자 (AI Scientist)’를 개발했다고 지난달 발표하기도 했다. 논문의 방향만 제시하면 생성형 AI가 알아서 연구 아이디어와 코드 작성, 실험 진행, 논문 작성까지 한다는 것이다. 이 과정에 들어가는 컴퓨팅 비용은 단 돈 15달러였다.

과학기술계는 생성형 AI가 만드는 논문이 범람하는 문제를 해결하기 위해 가이드라인 마련에 나선 상태다. 하지만 가이드라인 같은 규제를 만드는 속도보다 더 빠른 속도로 AI가 발전하고 있다. 사람의 추론 능력을 갖춘 o1이 등장하면서 AI 과학자가 현실이 될 날이 멀지 않았다.

오픈AI는 “o1은 AI 추론의 첨단 기술을 크게 발전시켰다”며 “과학과 코딩, 수학 같은 분야에서 AI의 새로운 사용 사례를 많이 발굴할 수 있을 것”이라고 밝혔다.

참고 자료

OpenAI, https://openai.com/index/learning-to-reason-with-llms/

arXiv(2024), DOI : https://doi.org/10.48550/arXiv.2408.06292