최근 KBS가 보도한 이른바 ‘이대남 이대녀’ 보고서의 한 그래프를 두고 소셜네트워크 세상이 시끄럽습니다. 논란의 시작은 지난 24일 KBS가 ‘세대인식 집중조사’라는 제목으로 공개한 아래 그래프입니다. 소득이 많아지면 남을 돕겠다고 밝힌 비율이 올라가는 다른 집단과 달리 남성 청년만은 소득이 높아질수록 가진 것을 남과 나누겠다는 비율이 눈에 띄게 내려가는 모양을 하고 있습니다.

KBS가 청년과 중년, 여성과 남성을 비교한 그래프. 학자들이 지적하자 수정한 버전이다. /KBS

KBS는 이를 “청년 남성은 계층의식이 높을수록 자신이 가진 것을 나눌 생각이 없는 경향이 커진다”라고 보도했습니다. 소셜네트워크에선 20대 남성의 ‘정신세계’에 대한 부정적 코멘트와 함께 충격적인 결과를 담은 이 그래프가 빠르게 퍼지며 큰 화제가 됐습니다.

그런데 일부 학자들 사이에 이 그래프가 실상을 지나치게 단순화했고, 나아가 통계를 왜곡했을 위험이 있다는 경고가 잇달아 나왔습니다. 이한상 고려대 경영학과 교수는 페이스북에 “중요한 이상 현상이니 면밀한 검증이 필요하다. 연구자로서 충분히 자료를 설명해 달라”라고 했고 김두얼 명지대 경제학과 교수도 “이 그림은 그냥 틀린 것”이라며 우려를 밝혔습니다. 이 그래프에 왜곡의 위험이 있다는 학자들은 KBS에 설문 데이터를 공개하라고 요청하고 있습니다. KBS는 이런 비난이 일자 그래프를 약간 고쳤지만 이후로도 논란은 수그러들지 않는 상황입니다.

20~30대 남성은 정말 돈이 많아도 남을 돕지 않는 사악한 존재일까요. 왜 일부 학자는 그래프를 강하게 비난하고, 이 그래프가 제대로 된 결과로 인정받기 위해 해결해야 할 맹점은 무엇일까요. 고등학교 시절 수학 시간에 스치듯 배웠던 ‘통계와 확률’을 꺼내봐야 하려나요. 논란에 휩싸인 ‘KBS 이대남 그래프’의 쟁점을 5문답으로 풀었습니다.

◇Q1. 왜 일부 학자들이 화를 내고 있나요

이 그래프는 KBS가 전문가(‘국내 사회조사 권위자로 구성된 KBS 세대인식 집중조사 공동연구진’)들과 함께 청년과 중년을 설문해 만든 기획기사에 포함됐습니다. 총 설문 인원은 1200명, 이중 청년(20~34세)과 중년(50~59세)이 반반이고 이들을 다시 남성과 여성의 그룹으로(역시 반반 정도) 나누어 설문을 진행했다고 합니다.

문제가 된 부분은 청년 남성의 ‘멘탈’입니다. 이 그래프를 보면 남녀를 불문한 중년 응답자와 여성 청년 응답자는 모두 소득이 높을수록 남과 가진 것을 나누겠다고 답하는 이들이 늘어나는 듯 보입니다. 하지만 충격적이게도 청년 남성은 소득이 높을수록 가진 것을 남과 나누겠다는 비율이 가파르게 떨어집니다.

KBS가 기사가 보도된 시점에 넣은 그래프. /KBS

이 그래프에서 소득 수준은 ‘최저’부터 ‘최고’까지 10단계로 나뉘어 있습니다. 학자들이 지적하는 이 그래프의 가장 큰 맹점은 10개로 나뉜 소득 수준마다 충분한 응답 수가 모였는지가 의문이라는 겁니다. 설문 작성팀은 ‘소득 수준’을 가늠하기 위해 응답자의 ‘셀프 평가’를 잣대로 삼았습니다. 스스로 ‘나는 소득이 최고 수준이야’라고 하면 초고소득층, ‘나는 소득이 최저야’ 하면 초저소득층이라는 식입니다. 그런데 상식적으로, 2030 세대 중에 스스로를 ‘최고 수준’이라고 평가하는 이들이 얼마나 될까요. 만약 소득 상위권이라고 응답한 이들이 극히 적었다면 이들의 응답이 통계적인 대표성을 갖기 어렵다고 일부 학자들은 지적합니다.

물론 연구를 설계할 때 각 소득 구간별로 응답자가 비슷하게(이 경우 30명씩 10구간=300명) 분포하도록 할 수 있습니다. 응답이 적다면, 그 구간에 충분한 응답(이 경우엔 대략 30명)이 찰 때까지 설문을 계속 돌리면 됩니다. 연구에 의문을 제기하는 학자들은 그래서 각 구간에 응답자가 몇 명 정도씩 분포하는지, KBS가 원자료를 공개하라고 촉구하고 있습니다.

◇Q2. 응답한 2030 남성의 수가 300명이면, 너무 적은 것 아닌가요

반드시 그렇지는 않습니다. 통상 통계적으로 ‘평균’이라고 할 때, 대략 20~30개 정도 관측치를 무작위 추출을 통해 확보해서 계산한 값이라면 그럭저럭 통계적인 의미가 있다고 본다고 합니다. 300명을 10개 구간으로 고루 나누면 한 구간에 30명 정도씩 들어가게 되니, 수가 적어 문제라고 볼 수는 없다는 뜻입니다. 하지만 만약 어느 한 구간, 예컨대 스스로를 ‘최상위’라고 정의한 구간에 응답자 수가 너무 적어 20명도 되지 않는다면 그 수치 자체는 통계학적으로 의미를 두기 어려울 수 있습니다. 연구자도 KBS도 구간별 응답자 수는 공개하지 않아 그래프가 제대로 그려졌는지 파악하기가 지금으로서는 어렵습니다.

일부 학자가 제기하는 가장 우려스러운 시나리오는, 청년 세대 남성 중에 스스로를 ‘소득 하위층’이라고 정의한 이들이 압도적으로 많았을 경우입니다. 그렇다면 저 그래프는 정반대의 해석이 가능합니다. ‘청년 남성은 스스로 돈이 없다고 판단하는 비중이 엄청 높네. 그런데도 남과 가진 것을 나눈다고 밝히는 사람이 다른 집단보다 훨씬 많네!’라고 말이죠. 이 경우 2030 남성은 이기적이 아니라 너무나도 이타적인 ‘아름다운 청년’들이 되어버립니다. 이한상 교수의 아래 페이스북 포스팅을 보면 잘 설명이 되어 있습니다.

만약 내 박사과정 수업에 누군가 이런 그래프를 들고와 “젊은 남자들의 경우 일반적 경향과 다르게 많이 가진 기득권일수록 타인을 돕는 경향이 줄어드는 것 같다”라고 하면 나는 다음과 같은 코멘트를 날릴 것이다.

“이 그래프에 청년 남성 300명이 있다. 가정해 보자. 청년 남성 291명이 자신을 사회 최하층이라고 생각하고(1에 응답), 동시에 그 291명이 나는 타인을 돕겠다면서 ‘나눌 것이다’라고 응답하고 1을 찍었다. 가정이다. 동시에 나머지 9명의 청년 남성이 자신의 처지를 각각 2, 3, 4, 5, 6, 7, 8, 9, 10이라고 응답하고 ‘나누지 않을 것이다’라고 응답하면서 0을 찍었다. 역시 가정이다. 문제는 그러한 경우에도 아래와 같은 그래프가 나올 수 있다는 점이다. 극단적 가정이지만, 중요한 것은 그럴 수 있다는 가능성이고, 만약 그럴 리는 없겠지만 데이타가 그런 모양이라면 그건 무엇을 의미하는가? 이 그래프가 KBS 일부가 약을 팔려고 하는 것처럼 사회경제적 환경이 좋은 청년 남성들이 기회가 되면 내 것을 나눠 타인을 도울 것이라는 경향이 약해진다(KBS주장)는 주장을 뒷받침하는 게 아니라, 정반대로 청년 남성들 절대 다수가 자신을 사회에서 최하층이라고 생각하고 있으며, 그럼에도 불구하고 그들 거의 대부분이 다른 사람을 돕겠다, 즉 청년 남성들이 지구최강의 좋은 사람들이야(대안적 설명)라는 설명이 가능하다는 것이다. 뭐 그럴 가능성은 낮지만 말이야. 그래서 실증 분석 결과를 제시할 때는 기술통계량이 중요한 것이고, 아래 그림 같은 거는 그냥 각 빈(구간)마다 몇명의 남성 청년이 있고, 그 빈의 나눌 것이다-나누지 않을 것이다 숫자도 꼭 보여주어야 하는 거야.”

(이한상 고려대 경영학과 교수 페이스북 인용)

KBS도 보도에 ‘하위층 청년 남성의 뜻은 다른 어느 집단보다 그래프 위에 위치한다’고 부연은 했지만 누가 보아도 기사의 초점은 ‘돈 많은 젊은 남성은 남을 도울 생각이 없다’는 데 맞춰져 있습니다. 연구진과 KBS가 항간의 지적이 사실이 아님을 밝히고 싶다면, 원데이터를 공개하면 됩니다.

◇Q3. 설문 결과가 이렇게 예쁜 선으로 표현되는 게 가능한가요

연구에 참여한 일부 학자는 논란이 확산하자 선을 ‘예쁘게’ 만들기 위해 ‘회귀분석’이라는 방법을 썼다고 주장하고 있습니다. 회귀분석이란 단어가 나오면 갑자기 머리가 지끈거리긴 하는데요, 간단히 설명하면 회귀분석은 무작위처럼 보일 수 있는 데이터 뭉치에서 패턴을 도출하는 작업을 뜻합니다. 요즘은 이 작업을 대부분 컴퓨터가 수행합니다. 그런데 문제는 같은 데이터로 만들어낼 수 있는 패턴이 딱 하나만 있지는 않다는 겁니다.

아래 그림을 볼까요. 많은 점들이 찍힌 가운데 대략적인 패턴은 눈으로 보아도 어느 정도 감지가 됩니다. 문제는 오른쪽 아래 모여있는 몇개의 점입니다. 이 점들을 제거하고 대다수 점들의 모양을 기초로 회귀분석용 프로그램에 데이터를 넣어 돌려보면 선은 (a)의 모양으로 나타납니다. 하지만 오른쪽 아래 점들을 포함해서 단순한 회귀분석을 하면 (b)처럼 완전히 반대 형태로 만들어질 수도 있습니다.

이럴 때 필요한 것이 연구자의 역량과 판단력입니다. 보통은 이 점들 중에 어느 점은 ‘잡음’으로 보아 어떻게 통제할지, 전체적인 맥락과 설문의 성격과 가장 맞는 분석은 무엇인지 등을 다른 연구자들과 치열한 토론을 통해 검증합니다. 어떤 방식으로 이런 ‘예쁜 선들’을 만들게 되었는지도 앞으로 KBS와 연구진이 설명해야 할 부분입니다.

◇Q4. 그렇다면 이 그래프는 어떻게 그렸어야 할까요

설문 결과나 수집한 데이터를 남에게 보여주는 방법은 정말 다양합니다. 수많은 데이터를 두꺼운 서류철로 만들어서 ‘스스로 분석해 보시오’라고 던져줄 수도 있고, 무수한 데이터를 모아 분석한 평균값을 딱 하나의 수치(예를 들어 한국의 1인당 GDP처럼)로 제시할 수도 있습니다. 대학수학능력시험 등급처럼, 1등부터 꼴등까지 줄을 세우고 이를 몇 개의 구간으로 나누어 ‘잘라지는 점’이 어딘지를 보여주는 방법도 있겠지요. 그야말로 ‘오만가지 방법’이 있습니다.

이 중에 특정 데이터의 성격과 연구의 주제를 가장 잘 드러낼 수 있는 그래프를 만드는 것은 매우 중요한 문제입니다. KBS의 설문은 ‘기회가 되면 내것을 나눠 타인을 도울 것이다’라는 명제에 대해 ‘예’, ‘아니오’로 답하게 했습니다. 전문용어로는 이가형(二價形)이라 하고, 일반적으로는 ○X 방식이라고 하는 그런 설문입니다.

이런 연구의 경우 복잡하고 오해의 소지가 생길 수도 있는 회귀분석 대신, 각 구간별 ‘네’라고 답한 비율을 표시해주는 간단한 방식을 쓸 수 있습니다. 예를 들어 아래 그래프처럼 말이죠. (여기서 1구간에 해당하는 점이 의미하는 것은 소득이 1구간 수준인 사람 가운데 ‘예'라고 답한 사람이 40% 정도 된다는 뜻입니다.)

◇Q5. 이 그래프가 제대로 된 결과물일 가능성은 없나요

당연히 가능합니다. 연구팀이 각 소득 구간별로 충분한 응답자(예컨대 20명 이상)를 모든 연령대에서 확보했고, 이들의 응답을 분석해 그래프로 제대로 그렸더니 같은 결과가 나오더라는 것을 보여주면 됩니다. 가장 확실한 방법은 원데이터를 공개하는 겁니다. 이 설문 응답자는 1200명이라 분석이 난해한 수준은 아닙니다.

KBS는 사실상의 세금인 수신료를 받아서 운영되는 공영방송이고 최근 수신료를 인상해야 한다고 주장하고 있습니다. 사회에 큰 관심과 논란을 불러일으키는 결과물에 대한 원데이터를 공개하지 못할 이유는 없어 보입니다. 위의 결과물에 의구심을 표하는 학자들이 반복적으로 데이터 공개를 요구하는 이유입니다.