* 2016년 9월 26일 사회통계 수업을 들으면서...

오늘 통계 시간에, 표본의 표준편차를 구할 때 왜 분모를 n-1—표본의 크기인 n이 아닌—로 나누는가에 대한 짧은 설명을 들었다. 
사실 이는 고등학교 미적분과통계기본(문과) 시간에 배우는 내용이기도 하다. 모집단의 표준편차를 구할 때는 (각 변량의 값 - 평균)의 제곱의 합을 n으로 나누는 반면에, 표본의 표준편차를 구할 때는 특별히 n-1로 나눈다고. 물론 고등학교 과정에서는 이유를 알려주지 않는다. 그냥 편향성을 없애기 위해 이렇게 한다, 정도로만. 고등학생 때 수학 선생님이 통계 전공이어서 통계 파트에 대해서는 교과서에 없는 이런저런 심화적 내용도 좀 알려주곤 했는데 왜 하필 표본표준편차에 대해서는 n-1로 나누냐 하는 것에 대해서는 ‘그냥 그런 줄만 알라’ 하고 넘어간 것으로 기억한다. 마치 극한을 정의할 때 엡실론-델타 정리로 엄밀하게 정의하는 대신 대충 어물쩍 넘어가는 것처럼… 

여하튼 각설하고, 교수님이 왜 n-1인가에 대한 나름대로의 비유적 설명을 하기는 했는데 많은 학생들이 잘 이해를 못 했다. 왜 하필 n-1인가, 에 대해. 사실 나도 잘 이해를 못 했다. 순전히 내 개인적 이해를 돕기 위해, 왜 n-1인가에 대해 인터넷이나 서적에서 짧게 찾아본 바와 당시 수업의 설명을 토대로 정리해보기로 한다. 

n-1로 나누면? 

* 불편성(unbiasedness, 비편향성)을 확보할 수 있다


n-1로 나누면 그러한 편향성이 교정된다. 그래서 n-1로 나눌 때 불편추정치(unbiased estimate)를 확보할 수 있는 것이다. 

이는 아무런 데이터를 임의적으로 만들어서 계산해보면 경험적으로 확인할 수 있다. (실제로 통계 수업에서도 크기가 작은 임의의 데이터 셋을 만들고 그것에 대한 표본들을 뽑아서 확인해 보았다.) 

다음의 블로그 주소의 글은 n-1로 나눌 때 표본분산(표본표준편차)의 편향성이 교정되는 예를 임의의 데이터 셋을 통해 보여주고 있다. 

그럼 왜 하필 n-1 인가?

* 자유도(degrees of freedom)

n-1로 나누면 더 좋은 추정치를 확보할 수 있다는 것은 위의 내용으로 대충 알 수 있다. 그럼 왜 하필 n-1인가. n-2, n/2도 아닌 n-1… 

자유도 때문이라고 한다. 그렇다면 자유도란 무엇인가. 

자유도는 선택권이 있는 숫자의 개수이다. (수업에서는 축구 포지션 선택의 예를 들었다. 자유도가 무엇인지에 대해서는 인터넷에 쳐 보면 블로그들에 괜찮은 예시들이 많다.) 표본의 크기가 n이라고 할 때, 자유도는 n에서 1을 뺀 n-1이 된다. 

이 자유도를 이용해 비편향적인 표본분산을 계산하는 것이다. 

여전히 이해가 안 가는 것들… 

- 왜 하필 자유도를 사용해 표본분산을 계산하냐는 것. 자유도가 뭔지는 알겠는데… ‘왜 선택권이 있는 숫자의 개수(자유도)를 이용해 계산하면 편향성이 교정되지? 사례수(n)으로 나누는 것에 비해 어떤 매커니즘으로 차이가 생기는 것인가?’ 하는 의문인 것이다. 거칠게 말하면 수식에 대한 의문… (사실 이에 대해서도 교수님이 예시를 들어줬는데 잘 이해가 안 간다. 다음 수업시간에 물어봐야…) // 사실 구체적인 증명 과정은 학부 수준에서, 그것도 문과 나부랭이(;;)가 알 수 있는 것인지는 모르겠다. ‘닥치고 외워!’야 하는 것일지도.




- 영어긴 하지만... 다음 링크의 비디오를 참고하면 꽤 직관적으로 왜 n-1로 나누면 편향성이 교정되는지를 알 수 있다.  https://www.khanacademy.org/math/statistics-probability/displaying-describing-data/sample-standard-deviation/v/review-and-intuition-why-we-divide-by-n-1-for-the-unbiased-sample-variance

고교 3학년 수준의 영어면 충분히 이해 가능하고 밑에 자막도 있다. 다만 직관적인 이해를 도울 뿐이지, 왜 하필 자유도로 나누는가... 하는 질문에 대해서 답을 주는 영상은 아니다. 



// 

교수님이 주신 수업 참고자료 - 
University of Nebraska-Lincoln의 Dr. Paul Savory의 수업 자료에 따르면 표본표준편차를 구할 때 n-1로 나누는 이론적 이유는 다음과 같다. 

우선은 편차들의 합이 0이라는 사실을 계속 염두에 둬야 한다. (x bar는 sample average) 

n-1을 쓰는 이유: 자유도(degrees of freedom)이라는 개념에 기초해서 n-1을 쓰는 것이다. 자유도에 의해 n-1을 쓰는 이유는, 우리가 표본 dataset에서 평균(mean)을 계산할 때 이미 우리는 데이터 셋의 정보 하나를 썼기 때문이다(we have already used up one piece of all the information in the dataset in calculating the mean). 편차들의 합은 0이기 때문에, 편차들의 수가 n이라고 했을 때 n-1 개의 편차들의 값을 특정한다면 나머지 하나의 편차의 값은 무조건 고정된다(e.g. 합하면 0이 되는 4개의 표본을 고른다 하자. 1, -2, -3까지 세 개의 표본을 골랐다면 마지막 표본은 무조건 4가 된다). 따라서 degrees of freedom은 n-1이다. 


- 이걸 읽어도 사실 명쾌하게 이해가 안 가는데... 관련 자료들의 댓글들을 참고해보니까 theoretical한 설명은 그냥 Bessel의 correction 을 참고하라는 것 같다.