어느 날, 한 남자가 네 살짜리 아들과 함께 신문을 가지러 가는데, 아들이 자신과 보조를 맞추기 힘들어 하자 “미안. 아빠가 너무 빨리 걷지?”라고 물었다. 그러자 아들은 “아니 아빠. 빨리걷고 있는 건 나야”라고 말했다.  --- p.17

 

이 이야기는 과학적 발견의 핵심을 잘 설명하고 있습니다. 상황에 대한 아들의 관점은 옳지만 쉽게 다가오지 않는 반면 아버지의 관점은 쉽게 다가오지만 옳은 표현은 아닙니다.


소개하는  책은 20세기 통계혁명을 이끈 최고의 통계학자 중 한 명인  조지 박스의 자서전입니다.

박스-젠킨스 모델, 박스- 콕스 변환등 자신의 이름을 딴 연구성과를 남긴 통계학자입니다. SPSS나 파이썬 프로그램에서 박스-콕스변환이 담겨있습니다.

화학자의 조수로 일하고 2차 세계대전때에 화학전 방어 실험기지에서 독가스의 효과를 측정하고 분석하는 업무를 하면서 박스는 통계학을 독학으로 공부하게 되었습니다. 이때 화학자가 되려던 당초의 계획을 접고 통계학자가 되기로 결심하지만 군 제대 후 ICI라는 회사에서 8년간이나 일을 한 후에야 노스캐롤라이나 연구교수로 학계에 발을 딛게 됩니다. 통계학은 역사가 짧습니다. 조지 박스는 1960년에 통계학과를 새로 만든위스콘신 주립대(메디슨) 에 가서 수많은 연구 성과를 남기게 됩니다.

정규분포가 현실을 잘 근사하는 때가 많다는 것도 사실이다. 실제 분포가 정규분포와 조금 차이가 나더라도 크게 영향을 받지 않는 검증법도 있지만, 그렇지 않은 것도 있다. 1953년 내가 가정이 조금 틀려도 큰 영향을 받지 않는 검증을 로버스트 검증이라고 부른 다음부터 이 용어가 널리 사용되었다.
--- p.102

 

계량경영학이나 계량경제학에서 로버스트라는 말을 많이 씁니다.  원래 의학용어로 팔팔한 튼튼한이라는 뜻입니다.

다년간의 검증을 통해 경희대 입결은 정규분포 모델로 봐도 로버스트합니다.

그렇지만 조심해야 할 실수는 책에서도 언급합니다.

 우리의 잘못은 아주 소수의 대안 중에서 가장 좋은 것을 선택하는 부분 최적화를 하는 경우입니다. 단순화해서 문제를 해결하는 과정에서 뭔가를 배울 수 있다고들 합니다만, 그때 배우는 것은 우리를 잘못 인도할 수 있습니다.
--- p.137

경희대의 특정학과의 입결을 정규분포로 보고 접근해서는 안 되고 전형결과 전체를 볼 때 정규분포화 해서 보아도 된다는 것입니다.

학과별 입시결과는 표본수로는 지나치게 작습니다.

게다가 입결에서 나타나는 상관관계는 (예컨대 000 했더니 000 하더라)는 투입량과 진행정도를 표시하지 않습니다. 얼마만큼이고 언제부터인지가 나오지 않으면 엉뚱한 결과가 나옵니다.

가장 큰 교란요인(소음)은 내적요인이 아닌 외적요인에 의한 변질입니다.

수능최저학력의 변화일수도 있고 학령인구 지원학과 선호도 변화등 지원시점에서 예측하기 어려운 변화가 외적으로 많습니다.

우리는 예컨대 학종을  뚜껑이 열려있는 통을 가져다 놓고 통의 물이 넘치면 합격한다와 같이 쉽게 생각합니다.

비교적 정시는 누적백분위라는 개념이 있어서 가능하기도 한 접근이지만 수시 학종은 물통모형이 아니고 복잡한 체인 모델입니다.

기상학에서 쓰는 것이 마코프의 체인모델인데 이런 식입니다.

오늘 날씨를 통해 내일의 날씨를 확률적으로 예측하고, 다시 내일의 날씨 정보에 기반해서 모레의 날씨를 예측하는 행위를 충분히 반복했다고 가정합니다. 그리하여 내일 날씨에 관한 확률의 묶음이 특정 성질을 반복할 때 반복 계산의 어느 지점에서 날씨가 흐릴지, 비가 올지, 맑을지에 대한 확률이 특정하게 수렴하게 될 것입니다. 따라서 마코프 체인은 오늘 흐림이라서 내일은 무조건 비가 온다는 것이 아니라 내일도 흐릴 확률은 어느 정도인지, 혹은 맑거나 눈이 내릴 확률은 어느 정도인지 확률적으로 표현하게 됩니다. 그래서 마코프 체인에서는 상태 전이 확률이 핵심이 되고 아래와 같은 상태 전이도로 표현할 수 있게 됩니다.

그러니까 정시처럼 몇 %의 확률로 합격할까요가 불가능한 질문입니다.

통계학자들(수학자들)은 참과 거짓이라는 값이 부여된 문장들과 "그리고", "또는", "같다" 라는 접속사를 기호로 대채시킨 후   그것들의 결합을 통해 수학적 관계를 표현하는 데 단 하나의 표현할 수 없는 예외가 있었습니다.
  그 표현은 "A가 B를 일으키다" 입니다. 

그런데 이렇게 일으킨다 일으켰다라고 이야기하는 엉터리가 얼마나 많습니까? 

저작권자 © 괜찮은 뉴스 무단전재 및 재배포 금지