[통계학] 확률분포

2018. 2. 2. 00:48

Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.


작성한 수식이 깨져서 아래 파일 참조 

Agresti_ch.4.pdf


 




Ch.4. Probability Distribution 



목차

4.1 introduction to probability 4.2 probability distributions for discrete and continuous variables 4.3 the normal probability distribution 4.4 sampling distributions describe how statistics vary 4.5 sampling distributions of sample means 4.6 review: population, sample data, and sampling distributions 


4.1에서는 확률에 대한 간단한 소개를 합니다. 4.2에서는 확률분포와 관련한 두 변수, 평균과 표준편차(분산의 제곱근)를 소개합니다. 4.3에서는 확률의 정규분포를 다룹니다. 4.4에서는 표집분포(sampling distribution)를 다룹니다. 표집분포는 우리가 모집단을 모를 때 표본의 통계치를 추정할 때 아주 중요하게 쓰입니다. 표집분포의 종류는 다양합니다: 표본 평균의 표집분포, 표본 표준편차의 표집분포 등. 개중에 제일 중요한 것은 표본 평균의 표집분포입니다. 4.5는 표본의 평균(sample means)의 표집분포를 다룹니다. 여기서 특히 기억해야 할 정리가 중심극한정리(Central Limit Theorem; CLT)라 하겠습니다. 


다음은 각 절의 요약입니다. 


4.1 Introduction to probability 

  • 확률을 long-run relative frequency로 이해하기
    : “With a random sample or randomized experiment, the probability an observation has a particular outcome is the proportion of times that outcome would occur in a very long sequence of observations.
    : e.g. 오늘 비 올 확률이 70%입니다: 오늘 같은 날을 장기간 관찰한다면, 개중 70% 강우.
    : 장기간 관찰이 불가능할 때에는 주관적 정보(subjective information)에 의존할 수밖에 없음. 이러한 분야를 다루는 통계학이 베이지언 통계학Bayesian statistics이나 본서는 다루지 않음.
  • 기본적 통계 법칙 (p.74)
    : 모두 중고등학교 수학 시간에 배우는 것들.
    : 참고. P(B given A) [probability of B given A] = P(B|A). 즉 조건부 확률입니다. 


4.2 Probability distributions for discrete and continuous variables 


  • 확률 분포는 이산(discrete)변수에도, 연속변수에도 적용될 수 있습니다.
  • 확률 분포를 묘사하는 매개 변수들에는 두 가지가 있습니다.
    : a) 평균(=기댓값). 이산변수에 y 대해서 이는,  로 계산됩니다 (p.78).
    : b) 표준편차(). 이산변수 y에 대해서 이는,  로 계산됩니다.
    여기서 알 수 있는 것은 표준편차가, 의 기댓값의 제곱근이라는 것입니다. 


4.3 The normal probability distribution 


  • 정규분포(=정상분포; normal distribution)는 매우 중요한 분포입니다.
    : 현실의 많은 데이터는 정규분포를 따릅니다. 하지만, 정규분포를 따르지 않는 데이터에 대해서도 우리는 정규분포를 이용할 수 있습니다. (중심극한정리 참고) 
  • 정규분포의 특징: 대칭적; 鐘 모양; 평균과 표준편차에 의해 모양 결정. 
  • 지난 3장의 Empirical Rule에서도 보았듯이 정규분포에서 평균으로부터 2표준편차 떨어진 부분의 면적(=확률)은 약 0.95입니다.
    : p.80-81의 내용은 z값을 활용해 empirical rule의 내용을 보여주고 있습니다. 
  • z값을 통해, 정규분포 그래프의 확률을 쉽게 알 수 있습니다. (p.80)
    : z값은  로 계산됩니다. (p.83)
    : 그런데 중요한 것은 책의 표는 정규분포의 오른쪽 부분(right-tail)에 한한다는 것입니다. 물론 정규분포는 평균에 대해 대칭이기 때문에, 이를 활용하면 왼쪽 부분의 확률도 계산 가능합니다. 
  • 모든 종 모양 분포가 정규분포는 아닙니다. (앞서 살핀 empirical rule은 꼭 정규분포에 한해서만이 아닌, 종 모양을 따르는 분포에 적용됩니다.)
  • z값을 통한 추론 실습 (예제 4.4, 4.5)
    (1) 정규분포를 따르는 특정 확률분포에서 y값을 알 때 우리는 그것의 확률을 계산할 수 있습니다. (y값을 z값으로 변환하면 된다.)
    (2) 정규분포를 따르는 특정 확률분포에서 우리가 확률 값을 알 때, 우리는 그것의 값을 계산할 수 있습니다. 


  • 평균이 0이고 표준편차가 1인 정규분포를 ‘표준정규분포 the standard normal distribution’ 이라고 합니다. 



4.4 Sampling distributions describe how statistics vary 


  • 한 통계치의 표집분포(a sampling distribution)란, 그 통계치가 가질 수 있는 가능한 값들의 확률을 보여주는 확률분포입니다. (p.87)
    : 각각의 표본 통계치는 표집분포를 갖고 있습니다. 그러니까 표본의 평균에 대한 표집분포가 있을 수 있고, 표본의 비율에 대한 표집분포도 있을 수 있고, 표본의 중간값에 대한 표집분포도 있을 수 있습니다. 
  • Figure 4.9는 무엇을 의미할까요? 캘리포니아의 선거권자 N명이 민주당이나 공화당에 각각 절반의 확률로 투표한다고 가정합시다. 즉 아놀드 슈워제네거는 N/2를 득표할 것입니다. 여기서 우리가 2705(=n)명의 샘플을 여론조사하는 과정을 컴퓨터로 백만 번 시행한다고 해 봅시다. 그렇다면 우리는 2705을 대상으로 한 표본의 표본 비율(sample proportion) 통계치를 백만 개 얻은 셈입니다. 이 백만 개의 통계치에 대한 확률 상대도수분포표가 바로 figure 4.9이며, 이는 바로 sample proportion의 sampling distribution 이라 할 수 있겠습니다. 


4.5 Sample distributions of sample means 


  • 표본평균  는 매우 많이 쓰이기 때문에 따로 특기할 필요가 있습니다.
    : 우리가 만약 표본평균 에 대한 표집분포를 안다면? 모평균을 모른다 해도 그것이 모평균에 근접할 확률이 얼마인지 계산할 수 있을 것입니다.
  • 기본 개념
    : sample mean:  ; cf. 모평균은  로 표기
    : (모집단의) standard deviation:  ; cf. 표본의 표준편차는 로 표기
    : 표준오차 standard error:  = 
  • sample mean은 변수입니다. 그러니까 각 샘플에 따라 sample mean은 변할 수밖에 없습니다. 한국 남자의 평균 키가 170cm라고 합시다. 한국 남자 1000명을 뽑아 평균내볼 때 표본의 평균 는 모집단 평균 170cm과 조금조금씩 다를 수밖에 없을 것입니다.
  • 표준오차는 이 각각의 샘플마다 얼마나 변하는지를 알려 주는 값입니다. 표준오차는 표본표준편차를 n의 제곱근으로 나눈 값으로 계산됩니다.
    : 앞서 든 한국 남자의 평균 키 사례에서 우리가 1000명 말고 100000명을 n 사이즈로 뽑는다면 표준오차는 줄어들 것입니다. 
  • 표집분포의 평균은 모평균과 같습니다.
  • 표준오차의 성격은 무엇일까요? 바로 표본의 사이즈 n이 커지면 커질수록 표준오차는 줄어든다는 것입니다. (즉, 표집오차 sampling error는 n이 커질수록 줄어듭니다.)
  • 중심극한정리는 다음과 같은 내용입니다.
    : n(표본 사이즈)가 충분히 클 때 표본 평균의 표집 분포는 정규분포 모양에 매우 가까워집니다. 모분포의 모양과 관련 없이요! (이것이 바로 중심극한정리가 중요한 이유입니다.)
    : 표본 사이즈가 얼마나 충분히 커야 할까요? 대충 30 이상이면 괜찮다 합니다.
  • p.94의 Example 4.9는 중심극한정리의 활용을 보여줍니다. 캘리포니아 이주노동자들의 수입은 당연히 정규분포를 따르지 않을 것입니다. (대부분 저임금을 받을 것이며, 고임금 노동자는 손에 꼽을 것입니다. 즉 right-skewed입니다.) 하지만 중심극한정리에 의해, 우리는 정규분포의 bell shaped curve와는 다른, skewed curve에 대해서도 정규분포의 원리를 활용할 수 있는 것입니다.
    : 물론 이 예시는 비현실적입니다. 보통 통계조사를 할 때에는 모집단의 평균과 모집단의 표준편차를 알 수 없기 때문입니다. (그러나 모집단의 표준편차는 로 대체할 수 있습니다.)


다음 5, 6 챕터는 중심극한정리를 활용한 통계적 추론 방식을 소개합니다.