국내 인공지능(AI) 개발 스타트업 업스테이지가 매스프레소 및 KT와 공동 개발한 수학 문제 풀이 특화 AI 언어 모델이 미국 거대 기술 기업이 개발한 수학 특화 AI를 제치며 세계 기록을 달성했다.
업스테이지는 공동 개발한 ‘수학(Math)GPT’가 언어 모델(LLM)의 수학 풀이 능력을 평가하는 대표 성능 평가(벤치마크) 시험 ‘MATH’와 ‘GSM8K’에서 기존 최강이었던 마이크로소프트(MS)의 언어 모델을 능가하며 세계 신기록을 달성했다고 8일 밝혔다. MATH는 대학 수준의 고급 대수와 해석학, 미적분학 등이 포함된 1만2500개의 고난도 수학 경시 문제로 구성돼 있는데, 업스테이지의 수학GPT는 이 평가에서 0.488점을 기록하며 MS가 개발한 ‘ToRA 13B’의 점수(0.481)를 넘어섰다. 오픈AI가 개발한 챗GPT(0.355)나 GPT-4(0.425) 점수를 크게 앞서는 수준이다. 업스테이지 관계자는 “초·중등 수준의 수학 문제로 평가하는 GSM8K에서도 매개변수(파라미터) 130억개 이하 모델 중 1위에 올랐다”고 했다.
업스테이지는 수학 풀이 전문 AI 학습 플랫폼 ‘콴다’를 운영하는 매스프레소와 함께 지난해 11월 수학GPT 개발에 착수했다. 메타의 개방형(오픈소스) AI 모델 ‘라마’를 기반으로 콴다의 수학 전문 데이터를 대량 학습시켜 복잡한 수학 문제를 풀 수 있도록 개조한 것이다. KT에선 AI 연산에 동원되는 GPU(그래픽 처리 장치) 인프라를 지원했다. 그 결과, AI 성능 기준으로 알려진 매개변수가 130억개에 불과한 모델임에도 매개변수가 수천억 개에서 1조개로 평가받는 GPT-4를 능가하는 성과를 보였다.
업스테이지는 앞서 자체 개발한 언어 모델 ‘솔라’를 공개하며 세계 개방형 AI 업계를 뒤흔든 바 있다. 솔라는 세계 개방형 AI의 성능을 겨루는 허깅스페이스의 성능 순위에서 1위를 차지했고, 이후에는 솔라를 기반으로 개조·가공한 모델들이 10위권을 휩쓸었다. 업스테이지는 수학GPT를 통해 얻은 산술·추론·논리 능력 향상 노하우를 솔라에 적극 녹여낸다는 계획이다.