여론조사 결과를 해석하는 법
(1) 들어가며: 통계용어도 잘못 사용하는 우리나라 통계분야(여론조사회사나 학계)
이번 구정(양력으로 2017년 1월 28일)에 부산에서 차례를 지내려고 갔다가 지인들과 현재 정국에 대해 여러 가지 대화를 나누었다. 그 중 하나는 어떤 여론조사회사의 조사결과에 관하여 의문를 가진 지인(A)과의 대화인데 그 내용은 다음과 같다.
A: 한 여론조사 조직에서 밯표한 조사결과를 이해할 수 없다. 내가 사는 지역(부산)에서 어떤 예상후보(S)의 지지율이 1위이다. 그러나 그 후보자는 우리지역에서 선호되는 사람이 아니다. 내 주위 사람들과 이야기를 나누어 보아도 모두들 그가 우리지역에서 1위가 될 수 없다고 말한다. 그를 지지하는 사람이 내 주위에 전혀 없는 것만 봐서 그 여론조사 결과를 믿을 수 없다. 왜 이런 여론조사 결과가 나오는지 설명 좀 해 달라.
나: 그런 조사는 전화로 하는데 그 방법이 문제일 수 있다.
A: 휴대폰 전화번호를 가진 사람을 대상으로 조사하느냐 집전화번호를 가진 사람을 대상으로 조사했느 냐의 문제 말이냐? 요새는 나이든 분들이나 젊은이 모두 휴대전화를 가지고 있으니 휴대전화로 하는 게두일반적이라 조사 방법에 별 문제가 없을 것이다.
나: 그 문제를 말하는 게 아니다. 예컨대, 1,000 사람을 대상으로 여론조사를 했다는 등 조사결과 발표시점에 조사한 사람의 수와 그 응답율에 문제가 있을 수 있다는 말이다. 이런 여론조사를 설명하기 위해 먼저 특정의 통계 관련 용어를 알 필요가 있다. 특히 언어감각이 부족한 우리나라 사람들이 오역해 사용하는 통계용어도 있는데, 그것부터 먼저 말하고 나서 그런 통계용어의 올바른 사용에 대해 설명하겠다.
A: 그래주면 좋겠다. 나도 통계용어를 좀 알고싶다.
나: 조사대상의 전체 집단을 모집단(population)이라 한다. 예컨대, 대선 후보자들의 전국 지지율을 조사한다면, 모집단은 한국의 전체 유권자이다. 부산 유권자만의 지지도를 조사한다면 부산 유권자 전체가 모집단이다.
어떤 모집단을 설정하고 그 모집단 전체에 대해 행하는 조사가 전수조사(population investigation )이다. 모집단이 너무 커서 그러기에는 물리적으로 불가능하거나 물리적으로 가능해도 시간과 비용을 고려할 때 전수조사가 사실상 어려하면 그 일부를 선별해(뽑아) 하는 조사를 하는데 이를 표본조사(sample investigation)라고 한다. 여러분이 믿울 수없더고 말한 조사는 후자, 즉 표본조사이다. 표본조사를 위해 표본을 선별하는 행위를 표본추출(sampling)이라 한다. 그런데, 대선 등 대부분의 선거용 여론조사에서는 모집단이 크므로 시간과 비용을 고려하여 표본추출을 통한 표본조사를 할 수밖에 없다.
표본조사에서 뽑힌 조사대상자 전체를 표본(sample)이라 하고 그 수는 흔히 1,000명 정도로 하는것 같다. 표본조사는 사람을 사용하여 하는 여론조사뿐만 아니라 품질조사 등 다른 조사에는 사람 아닌 것울 추출해 표본조사 한 다. 예컨대, 어떤 기업이 자신의 생산제품의 품질조사를 할 때, 생산된 모든 제품을 다 조사하는 전수조사가 아니라 생산된 제품 일부를 표본으로 추출해 조사한다. 여론조사에서는 사람이 조사대상이므로 앞으로 사람을 중심으로 하는 조사를 설명하겠다.
표본추출에서 뽑힌 조사대상자 하나하나를 관측대상(observation) 또는 그냥 조사대상자라 한다. 여론조사에서 뽑힌 사람 전체, 즉 추출된 관측대상자 전체를 하나의 묶음으로 보아 그 묶음을 표본(sample)이라 부른다. 위에서 말한 여론조사에서 1,000명을 표본으로 한 여론 조사이므로 이 1,000명이 하나의 표본이다. 이 표본은 1,000개의 관측대상(조사대상자)로 구성된다.
A: 1.000명이 하나의 표본이라... 그렇다면 이 여론조사에서 사용한 표본갯수가 1이란 말이냐?
나: 정확히 이해하고 있다. 표본갯수를 한국 사람들(학자 또는 조사기관)은 표본수로 하는데 이는 잘못이다. 즉, 이 1,000먕의 조사댜성저룰 가진 여론조사에서 표본수는 1이고 관축대상저가 1,000이라는 말이다.
A: 그렇구나. 분명히 하기 위해 묻는다. 여론조사 기관애서는 이 경우 표본수가 1,000이라던데 이건 틀린 말이냐?
나:. 그렇다. 잘못이다. 이 조사에서 표본수, 즉 표본갯수는 1이고 그 한 표본에 포함된 조사대상자 수가 1,000이란 말이다. 이 조사대상자 수 1,000을 표본크기(sample size)라 한다.
A: 알겠다. 그렇다면, 여론조사기관에서 말하는 표본수는 사실 표본크기룰 말하는 것 같다.
나:. 정확하다. 표본 갯수가 1개이니까 표본수는 1이고 표본크기가 1,000이다.
A: 알겠다.
나: 그듭 말해, 여론조사에서는 표본에 뽑힌 관측수, 즉 조사대상자가 1,000명이면 그 표본크기는 1,000이고, 관측대상이 1,500명이면 표본크기는 1,500인데. 이들 두 경우 각각의 표본크기가 1,000명과 1,500명으로 된 묶음이 하나씩 있으므로 표본수는 각각 1개이고 표본크기가 다를 뿐이다. 표본크기가 크면 클 수록 조사는 더 신뢰할 수 있다. .
A: 그러고 보니 우리나라 학자들의 언어 감각이 문제구나.
만약 우리의 이런 언어문제가 국제사회에서 발생한다면, 본래 의도된 뜻과는 다르게 전달되어 국가에 미치는 악영향은 아주 클 수도 있겠다.
나: 그게 문제이다. 이명박 정부에서 광우병 데모가 발생했을 때 그게 영어의 오역문제로 발생했다는 보도도 있었다. 그게 맞는 사실인지 모르지만 종종 국제적 회의에 우리나라는 언어 문제를 보인다는 신문보도가 있었던 것 같다. 박근혜가 소통의 문제가 있어 탄핵되는 거라 보면 되듯이 소통은 그처럼 중요하다. 좋은 소통에는 정확한 용어의 사용이 필수적이다. 그런데, 우리나라 논문을 읽어보면 내용과 문장력에 이런 문제가 심각하다.
A: 그런 문제가 있다면 심각하다고 본다. 교수들과 장차관 등 공직자들의 논문 표절이 문제되는데 문제는 그것만이 아니인가 보나. 한때는 종교계 등 사화 각층에 가짜 학위 뭌제가 신문울 도배한 적도 있었다
나: 심각하다고 본다. 이처럼 우리나라 사람들은 학계에서나 언론에서나 관계에서나 언어사용의 부정확으로 외국과의 협상에서도 문제가 잌ㅆ눌 수 았더고 본다. 이 한계가 이명박 정부 때 쇠고기파동을 일으킨 미국과의 협상에서 영어 해석이 잘못되어 그런 일이 있었다는 소문도 있었다. 정말인지 모르지만 말이다. 우리나라 명승지 등에 가면 이런 언어 감각이 떨어져 오역이나 소위 Konglish의 안내문이 있거나 이정표 등에 오역 문제가 많다. 도봉산에 등산을 가보면 산불조심이란 말을 영어로 beaware of forest fire이라 써여 있더라. 이는 (저기)산불이 있으니 조심하라는 의미로서 잘못이다. 여기서 조심은 본래 의도된 내용상 '불을 내지 마라.'는 말인데 불이 났으니 '조심하라.'는 말로 되어 조심의 뜻을 그대로 직역해 발생한 문제이다(이 블르그의 영어 부문 참조). 이런 식이면 표본수를 그대로 영어로 직역으로 번역하면 the number of samples가 된다. 바른 건 sample size(표본크기)인데도 말이다. 그리고 도봉산 천축사의 소개를 한 영어도 고칠점이 있다. 그게 한 둘이 아니라서 지적하기도 싫다. 모든 유적지와 명승지에 가면 이런 잘못된 번역이 많다는 것은 이미 말한 바 있다.
A: 영어 등 외국어도 그리고 우리 언어도 잘 가르쳐야겠다는 생각이 든다.
나: 물론이다. 우리 교육현장은 그 점에서 아주 심각한 문제를 가지고 있다. 이런 문제는 기회되면 나중에 다시 말하기로 하고 이제 여론조사 문제로 돌아가겠다.
(2) 여론조사의 문제점: 자기선택(self-selection)의 문제
A: 알겠다. 그런데 다시 대선후보의 지지도에 대한 여론조사로 돌아가 표본크기가 1,000이면 너무 작은 게 아
니냐?
나: 그런 점에 나도 일부 동의한다. 그러나 통계 이론으로는 반드시 그런 건 아니다. 왜냐하면 통계 이론으로는 표본위 크가가 30이상이면 된다. 그러나 그건 말이 아니다 할 정도로 작아 여론조사조직에서 흔히 사용하는 조사 대상자의 수, 즉 표본크기로 1,000 여명을 사용한다. 포본의 크기가 크면 더 신뢰할 수 있기 때문이다. 표본크기가 3,000 ~5,000이면 더 신뢰할 수 있겠지만, 그 비용이 만만하지 않을 것이다. 그런데 이 대화 처음에 말한 것으로서 여론조사에 문제 있다는 것은 표본크기가 1,000이라서 문제란 개 아니다. 더 큰 심각한 문제가 있다는 말이다.
A: 더 큰 심각한 문제라고?
나: 그렇다.
A: 표본크기가 별 문제 없다면 무엇이 문제냐? 난 그 문제가 뭔지 짐작할 수조차 없다.
나: 그 문제는 아마 여론조사회사도, 또 대부분의 이와 관련한 한국 학계에서도 그리고 언론들도 인지하지 못할 것이다. 내가 그걸 설명해주면 아하 하는 내용이지만 말이다.
A: 더 궁급해진다. 그 문제가 뭔지...
나: 한마디로 말해 표본 추출잘법이 문제일 수 있다는 말이다. 그 설명을 하기 전에 무작위란 말을 알고 있느냐?
A: 글쎄... 그 용어는 여론 결과를 말하는 방송에서 들어본 것 같지만...
나: 무작위(random)에서 작위란 의도적 행위를 말하며 일종의 조작(manipulation)이란 말이다. 무작위란 그런
의도된 행위를 하지 않는 행위라는 말이다. 여론조사는 무작위로 표본추출을 한다. 즉 어떤 후보자에 유불리하게 인위적 의도를 가지고 표보추출을 하지 않는다는 말이다.
이처럼 어떤 의도를 가지 않고 하는 표본추출(선택)을 무작위표본추출(random sampling)이라 한다.
다시 멀해, 이 무작위표본추출로 하는 여론조사의 조사대상자 중 특정 대상을 표본에 반드시 포함시키거나 표본에서 배제하는 등 사전적으로 어떤 조사대상자의 포함 여부를 미리 의도적으로 결정하여 표본추출을 하지 않는다는 말이다. 예컨대, 특정 후보의 지지가 높은 것을 의도적으로 높게 발표하려고 특정지역인 호남지역(또는 영남지역)에서만 조사를 하고 그 결과가 마치 전국적인 조사결과인 것처럼 발표하면 그건 무작위추출이 아니다. 물론 그런 경우에도 그 특정지역만의 여론을 알려면 그렇게 하지만 전국적인 여론을 조사하기 위해서는 그렇게 하면 특정후보 지지율을 높이는 의도가 포함된 조사이므로 그 표본추출은 무작위추출이 되지 못한다. 이처럼 작위추출을 통계적으로는 편의(bias)가 있는 표출추출 즉, 편의표본추출(biased sapming)이라 한다. 모든 표본조사에서는 그렇게 조작하거나 그와 유사하게 하지 않고 무작위추출을 해야 한다.
A: 알겠다. 그럼. 여론조사에 문제가 있다는 말은 이제까지 여론조사조직이 1,000사람을 조사대상으로 할 때
그런 식으로 무작위표본출을 하지 않았다는 말이냐?
나: 그런 셈이지만 좀 더 미묘하다. 무응답자를 표본에서 배제하는 게 문제일 수 있다는 말이다.
A: 좀 자세히 말해 달라. 무응답은 당연히 그리고 자연적으로 제외하는 게 맞지 않나?
나: 그렇지 않다. 무응답도 무작위표본의 일부이니까 제외사키면 안 된다. 그게 왜곡된 결과를 낳을 수 있다는 말이다.
A: 제외시키게 문제일 수도 있다? 이해하기 더욱 어렵다. 속 시원히 말해 달라.
나: 후후, 그러겠다. 자, 예를 들어, 1,000명을 뽑아 조사하는데, 1명이 전화를 받자마자 끊어버리면 무응
답자로 표본에서 제외시키고 다른 한 사람을 조사대상자에 추가할 수 있지 않겠나?
A: 그럴 것이다 1,000명울 채우는. 그게 왜 문제이냐?
나: 더 들어봐라. 그렇게 제외된 사람이 100 사람이라 하자. 이 경우, 조사대상자로 1,000명을 채우려면 실제로 조사한 사람은 1,100명이 된다.
A: 그렇다. 그 추가한 100 사람도 무작위 추출을 하면 문제될 것이 없지 않느냐?
나: 그래도 문제가 된다.
A: 그래도 문제라? 궁급하다 못해 흥미롭기까지 하다.
나: 빨리, 빨리의 우리 문화에서 나의 느린 설명을 이제 흥미롭다 하니 나도 질질 끄는 게 흥미롭다. 후후
A: 하하. 그래도 답답하다.
나: 후후, 그렇게 100명을 추가하면 자기선택(self-selction)이란 게 발생해 문제란 말이다.
A: 자기선택? 그게 무슨 말이냐?
나: 자기선택이란 조사대상자가 된 사람 스스로가 조사표본에 포함되거나 제외되는 현상을 말한다.
A: 에이, 그게 말이 되나? 조사조직이 무작위로 뽑으면 조사조직, 즉 여론기관이 조사대상을 뽑고 무응답자를 제외하는지를 결정하는데...
나: 그러니 묘하지 않나? 참고 들어봐라. 여론조사조직이 무응답자룰 제외하는 걸 조사대상자가 아니까 응답과 무웅답을 스스로 결정하는 방법으로 조사대상자가 조사대상에 자기의 포함여부를 스스로 결정하는 셈이다. 그렇지 않나?
A: 아하, 듣고보니 그렇다. 이제 알겠다.
나: 자기선택이란 용어를 더 잘 이해하도록 보수와 진보를 가지고 구체적으로 설명하겠다. 이 예는 우리의 현재 상황에 딱 들어맞고 그래야 이해가 빠를 것이다. 전화를 받은 조사대상자가 철저한, 즉 골수보수주의자라면 그는 자기의 지지후보가 후보자가 썩은 보수자이든 자질이 좀 부족한 보수자이든 무조건 그 보수후보자를 지지한다고 답할 가능성이 아주 높다. 마찬가지로 전화를 받은 조사대상자가 철저한, 소위 찐 진보주의자라면 그는 자기가 지지하는 진보후보자가 위험천만한 진보주의자이든 그냥 조금 맘에 들지 않는 진보주의자이든 그 후보자를 지지한다고 말할 가능성이 아주 높다. 그렇지 않겠나?
A: 그럴 것이다.
나: 문제는 이 같은 극단적 보수주의자도 극단적 진보주의자도 많지 않을 것이다.
A: 나도 그런 극단적인 자들은 많지 않다고 본다.
나: 그렇다면 말이다. 지금은 진보진영에 속하는 응답자가 극단적(골수적) 진보주의자가 아니더라도 진보진영으로의 정권교체 열망이 높다. 지금 진보진영의 후보자가 있고 그는 그 여론조사에 답을 할 가능성이 높다.
A: 그럴 것이다.
나: 반면, 지리멸렬한 보수진영에서는 지금 마땅히 지지할 후보자가 없다. 그래서 지지자를 결정하지 못하고
이러지도 저러지도 못하여 전화를 아예 받지 않거나 받아도 답하지 않고 바로 끊을 것이다. 지금 어떤 답도 할 가능성이 높지 않다는 말이다. 이처럼 어떤 조사대상자가 보수주의자이긴 하지만 극단적(골수)보수주의자가 아닌 한 부동표가 되어 답을 하지 않을 가능성이 높다. 이들이 전화조사에 전화를 받지 않으면 무응답으로 처리돼 제외될 것이다.
A: 그럴 거라고 본다.
나: 그 답하지 않은 사람을 대체할 새로운 조사대상자로 추가될 것이다. 아니 그런 것을 예상해 조사할
표본크기를 처음부터 1,000명 넘게 미리 정했을 수도 있다. 그래서 답한 사람이 1,000보다 적으면, 추가 된 사람도 있고 그도 답하지 않으면 또 한 사람을 추가하게 될 것이다. 이렇게 하여 지지자를 말하는 사람이 1,000명을 넘을 때까지 새로 추가하거나 미리 정해진 사람수에서 추가로 뽑아 전화로 물을 것이다. 이때도 추가된 사람은 무작위일 것이다. 그래서 무작위추출은 유지될 것이다. 겉으로는 그런 것 갗다.
A: 계속해주기 바란다.
나: 겉으로는 그런 것 겉자만, 살상은 그렇게 할 때 진보주의 후보자를 지지한다고 대답할 진보주의 조사대상자는 자꾸 많아지고, 보수주의후보자를 지지하는 사람은 답을 하지 않을 것아고 그러면 보수주의 후보를 자지한다고 답울 하는 서럼 수는 별로 늘지 않거나 아예 늘지 않을 것이다.
A: 아하, 좀 알겠다. 설명을 반복하면, 그런 식으로 여론조사를 하면 진보진영 후보를 지지한다는 응답 수는 늘고 보수진영 후보를 지지하는 응답 수는 변동이 없거나 적어서 진보진영의 후보자 지지율이 높아질 것이겠구나. 반면, 그 반대로 보수진영의 후보지지율은 상대적으로 줄어들고....
나: 빙고(Bingo)!
A: 그렇구나. 이제 표본크기를 1,000이라 해도 실제는 1,100명을 조사할 수도 있다는 말을 이해하겠다. 그
추가된 사람이 추가된 조사대상자이든 1,000명이 안 될까봐 미래 1,000명보다 더 많게 조사대상자를 미리 정해 조사헸든 말이다. 미리 1,000명 이상 조사대상자를 정한 경우, 1,000명을 채우거나 이를 초과하기 위해 1,500명을 미리 정해 조사해 응답자수가 1,060명이니 하는 경우가 발표되기도 하겠구나.
나: 그렇다. 이제 자기선택을 자세히 말해보자. 보수자의자인 조사대상자가 답을 하지 않아 스스로 조사된 표본에 포함되는지의 여부를 스스로 결정한다는 말이다. 답하지 않으면 표본에서 제외되고 답하면 표본에 포함되기 때문이다. 이처럼 조사대상자가 스스로 표본에 포함되는 것을 스스로 결정하는 현상을 자기선택이라 하고, 영어로는 self-selection이라 한다. 그런 가능성 때문에 지금 여론조사 방법으로는 진보진영 후보자의 지지율이 실제보다 더 높을 가능성이 있다. 다시 말해, 무웅답 보수주의자는 진보진영의 후보자를 지지할 가능성은 반반(50%)이겠지만 여론조사상 답하지 않아 표본에서 제외되는지를 스스로 결정하는 자기선택을 하여 진보진영 후보자의 지지할 가능성이 높은 응답자가 추가될 가능성이 높을 것이다.
(3) 결어
A: 자기선택이 샤이 트럼프지지자(트럼프를 지지자지만 그걸 드러내놓고 말하지 못하는 사람)이 많다는 현상을 설명할 수도 있겠다.
나: 맞다. 그런 현상이 나타난게 자가선탹 떠문이라고 본다. 샤이트럼프는 자기가 트럼프에 투표할 것을 이미 확실하게 결정하였지만, 트럼프가 여러 가지 문제를 가진 후보자이니까 그의 지지를 드러내놓고 말하지는 못한 현상이다.
A: 그렇구나. 그럼 대세론은 진보가 아직은 아닌가보다.
나: 그렇다고 본다. 그건 아직 알지 못헌다.
A: 여론조사 결과를 이해하는 데 많이 도움이 되었다.
(추후 더 씀)
.
'2017.05.09 대선 관련 단평' 카테고리의 다른 글
황교안이 대통령권한대행을 기념하기 위한 시계의 제작을 보고... (0) | 2017.02.26 |
---|---|
선거 등 정치에 조직이 있어야 한다는 생각은 버리자. (0) | 2017.02.18 |
후계자, 적장자라는 썩은 생각은 이제 버려라 (0) | 2017.02.17 |
인재영입 시대는 막을 내려야 (0) | 2017.02.09 |
반기문의 대선 불출마 선언에 대하여 (0) | 2017.02.01 |