챗GPT를 개발한 OpenAI 로고. /AP 연합뉴스

영국의 한 대학 시험에서 생성형 인공지능(AI) 챗GPT-4가 작성한 답안 94%가 채점자들에게 적발되지 않고, 83%는 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

26일(현지시각) 과학 저널 ‘플로스 원’(PLoS ONE)에 따르면 영국 레딩대 심리·임상언어과학대학 연구팀은 실제 학부 시험 도중 엄격한 블라인드 방식 실험을 진행해 이 같은 결과를 얻었다고 밝혔다. 그러면서 “AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 ‘튜링 테스트’(Turing Test)를 통과했음을 보여준다”고 했다.

연구팀은 심리학 학사 학위 취득을 위한 5개 학부 시험에서 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 시험 항목은 단답형 3개와 에세이 2개로 구성됐다. 숙련된 채점자들은 연구 진행에 대해 모르는 상태에서 답안지를 받았다.

그 결과 챗GPT-4가 작성한 답안 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다도 높은 점수를 받았다. 챗GPT-4의 답안과 실제 학생 답안을 무작위로 골라 비교했을 때, 챗GPT-4의 점수가 높을 확률은 83.4%에 달했다.

또 실제 학생이 챗GPT-4 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했다. 에세이 시험 1개에서만 실제 학생 57.14%의 점수가 챗GPT-4 점수 중간값을 넘었다.

연구팀은 “학생들이 부정행위에 AI를 악용할 수 있다는 것을 보여준다”며 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다”고 했다. 그러면서 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 노력해야 한다”고 덧붙였다.