https://news.joins.com/article/22939324


거짓말에는 세 가지 부류가 있다. 거짓말, 새빨간 거짓말, 그리고 통계
(There are three kinds of lies: lies, damned lies, and statistics.)

당신이 직접 조작한 통계가 아니라면, 어떤 통계도 믿지 말라.

통계는 비키니와 같다. 통계가 드러내는 것들은 매우 흥미롭지만, 통계가 감추고 있는 것들은 그보다 더욱 흥미롭다.

- 원저자 미상#

통계의 특성을 악용함으로 통계를 왜곡해서 사람들에게 보여주는 사례들을 주변에서 심심치 않게 볼 수 있으며, 셀 수 없이 많은 광고와 기사가 자신의 억측을 사실이라고 주장하기 위해 통계를 견강부회식으로 사용한다. 가장 흔한 것은 상관관계의 사건을 마치 인과관계인 것 처럼 서술하는 것. '운전중 커피 소모량과 고속도로 교통사고 사망률이 비례하더라'라는 주장은 마치 '커피가 교통사고의 주범이다'라고 들리지만, 실은 커피를 대량으로 마셔가며 잠을 쫒아 운전하는 사람은 졸음 운전의 위험성이 있는 사람이고, 따라서 교통사고율이 높은 것이다. 즉 공통 원인을 가져서 어느 정도 상관관계는 있지만 그 자체로는 독립적인 두 현상에 인과관계의 의미를 잘못 부여한 것.

이 사례가 우습게 들리는가? 당장 당신이 보게 될 광고나 각종 기사들을 곰곰히 분석해보자. 이 사례보다도 얼토당토 않은 주장들이 난무하고 있다는 것을 알 수 있을 것이다.

특히나 이러한 왜곡이 난무하는 분야가 바로 성 격차와 관련된 통계들인데, 이쪽은 페미니스트들의 자의적 통계 해석과 왜곡이 극에 달해 있다는 것을 알수 있다. 페미니스트들이 통계를 들고 와서 하는 주장들이 거진 대부분 저런 식이다.[2]

예를 들면 여성계에서 지속적으로 주장하는 임금 격차와 고용률 차이가 있다. 물론 먼저 짚고 넘어가야 할 것은 절대로 현재 성차별이 존재하지 않는다는게 아니다. 문제는 여성계가 자기 입맛에 맞는 통계로 실제보다 좀 더 성차별을 부풀리려고 시도한다는 것. 이를테면 현재 20대는 여성이 남성보다 더 많이 벌고 더 많이 고용된다.* 다만 현재 30대 후반 이상의 여성들이 20대 때 겪었던 성차별 등으로 인하여 사회진출이 곤란했기 때문에, 이들의 존재로 인하여 전체를 평균내서 보면 고용률이 낮은 것. 즉, 현재의 여성은 남성보다 더 사회진출이 어렵거나 고용이 힘들거나 하지 않는다.

그럼에도 불구하고 고용률이 현저하게 낮게 측정되는 것은, 물론 경력 단절 등 현재의 성차별도 영향을 미치긴 하지만, 인식개선 등으로 사라지거나 대폭 완화된 과거의 성차별까지 통계에 뒤죽박죽 섞어버려서 발생하는 착시현상이란 것이다.

이해하기 쉽게 예를 들어서 설명해보자. A라는 국가에서 여성은 절대 고용하지 않는 B라는 이름의 관습이 존재했었지만, 사라진지 20년이 흘렀다고 가정하자. 현재 A국의 여성은 B로 인해 불이익을 전혀 받지 않는다. 그러나 B가 사라진지 20년 밖에 지나지 않았으므로 20대, 30대는 남녀 격차가 존재하지 않겠지만 40대 이상은 남성만 고용되어 있고 여성은 한명도 없을 것이다. 이 때 모든 세대를 평균 내보면 당연히 남성 측이 여성 측보다 압도적으로 고용률이 높게 측정될 것이다. 이를 두고 여성계는 봐라! B라고 불리는 이 성차별은 사라지지 않았다! 여성에게 더 많은 정부 지원을 해줘야 한다! 라고 외치는 꼴. 임금격차도 이런식으로 부풀려져있다. 참고로 A국의 여성계가 말하는 격차가 사라지려면 B로 인해 차별받았던 여성들이 전부 늙어 죽고 B를 겪지 않은 여성들로 세대교체 될 때까지 기다리거나, 남성보다 여성을 더 많이 고용하는 C라는 새로운 정책을 통과시켜야 한다.

다시 한번 말하지만, 성차별이 존재하지 않는다는게 절대로 아니다. 그런데 여성계는 현재의 성차별을 부풀리기 위해서 지금은 사라졌거나 대폭 완화된 성차별까지 무차별적으로 끌고 와 버리는 엉망진창 통계를 밥 먹듯이 쓴다는게 문제. 여성계가 원동력을 받으려면 이슈가 있어야 하기 때문에 발생한 촌극이다.

제대로된 위키러, 특히 전문분야에서 일하게 될 사람이라면 저런식의 주장에 낚이지도 말고, 하지도 말자.

왜곡과는 별도로 통계는 예측 혹은 거짓말 에서 못 벗어난다. 통계를 하는 이유가 전수조사, 즉 전부 검사하기 힘들고 돈이 많이 깨지기 때문이다. 즉 일부만 검사해서 전체를 추론한다. 반대로 얘기하면 전수조사 결과는 일단은 100% 확실한 진실이다. 이 일부 조사를 누가 언제 어떻게 무슨 방법으로 하느냐에 따라 결과가 바뀌니 결국 딱 나오는 건 숫자 뿐이다. 물론 어떤 자료던지 그걸 어떻게 해석하는 가는 사람이 하는 일이니 결국 예측 혹은 거짓말에서 못 벗어난다. 사실 이게 통계에서 가장 잘 범하는 오류 중 하나이며, 미국 대통령 선거 예측이 완전히 뒤집어 진 일도 있었다. 정확하게는 1936년 재선때, 리터러리 다이제스트라는 잡지사에서 전화명부, 자동차 소유주 명단 등을 이용하여 표본을 간추린 뒤 여론조사를 한것으로 랜든의 압승을 예측했는데 문제는 이게 부자 위주(랜든 지지자 편중)의 표본이었다는 것이다.(대공황 당시었으니 전화기 있고 자동차있는 사람의 상당수는 돈있는 사람인 상황) 결국 서민층이 대부분인 실제선거에서 역관광당했고, 리터러리 다이제스트는 1938년에 망해서 타임지에 흡수되었다.

비슷한 사례로 20대 총선 당시 여론조사상 새누리당(자유한국당의 전신)이 크게 우세하고 더불어민주당이 참패를 면치 못할 것으로 보였으나, 이 여론조사에 문제가 있었던 것이 국회의원 선거의 경우는 지역구마다 각각의 조사를 해야 하는 데다가, 주말은 휴일이기 때문에 조사원들도 쉬어야 하므로 평일 오전에 100% 유선전화에 무선표집(Random Sampling)을 할 수밖에 없었고[3], 이러한 이유로 인하여 새누리당 지지세가 높은 노년층이 주로 여론조사에 참여한 덕에 새누리당의 지지율이 뻥튀기되어 나타난 적이 있었다. 물론 실제 결과는 여론조사와 달랐으며 결국 민주당이 승리하였다. 다행히 안심번호라는 제도가 정착된 덕에 7대 지선에서는 그렇게 틀려대던 기초자치단체장 선거마저 상당수 맞추었으니[4] 다음 총선에서는 유선 100% 문제가 해결될 가능성이 크다.[5]

게다가 이 표본에는 표본이 되는 대상 뿐만 아니라 조사 기준 자체도 포함되는지라 어떤 기준을 표본으로 설정하느냐에 따라 결과 및 해석이 천차만별로 나올 수 있다.
심각한 문제로 넘어가면, 게임규제 항목의 수출액 관련 통계가 규제 반대론의 근본적인 이유가 되지 못하는 것도 이 때문. 게다가 애초에 사람이 조사하는 것이니 심리적인 편중도 배제할 수 없고, 조사가 자동화되거나 자연현상 조사 같은 비교적 객관적인 것마저 지역적 편중을 배제할 수 없다. 대표적인 편중의 예가 대형마트 규제 논란 관련 통계.[6] 게다가 표본 자체가 거짓말을 하면 이를 거를 수 있는 방법이 없기에, 요즘 여론조사는 믿을 게 못된다는 자조 섞인 목소리가 나오기도 한다. 이런 통계의 특성을 극도로 악용한 사례가 바로 타겟맵 같은 몇몇 쓰레기 사이트.

또한 통계 자체가 얼마나 신빙성 있느냐도 문제가 있다. 이를테면 적은 표본은 단순 퍼센트 비교 보다는 개별 표본을 분석해 인과관계 등을 찾는 게 오히려 신빙성이 높다. 애초에 이론 자체가 심리학을 고려하지 않기 때문에 한계가 있을 수 밖에 없다는 점도 있다. 그 예로 볼린저 밴드 역시 이론적은 신뢰성이 상당히 높으나 실제로는 그냥 평이한 수준이다. 이론을 현실에 적용하다보면 이론적으로는 95%, 99% 신뢰할 수 있어야 하는데, 실제로는 앞서 언급한 이유로 신뢰성이 0%가 되는 일도 허다하다. 애초에 모본 자체가 편향에 얽혀 있는 한 표본 역시 편향에 종속되므로, 통계에 오류가 발생하는 건 불가피한 문제이다.