Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.


Agresti_ch.6.pdf




Ch.6. Statistical Inference: Significance Tests (통계적 추론: 유의도 검정)


목차 

6.1 The Five Parts of a Significance Test 

6.2 Significance Test for a Mean

6.3 Significance Test for a Proportion

6.4 Decisions and Types of Errors in Tests

6.5 Limitations of Significance Tests

6.6 Calculating P(Type 2 Error)* 

6.7 Small-sample Test for a Proportion The Binomial Distribution* 


6.1 The Five Parts of a Significance Test 


  • 유의도 검정이란, 통계치가 통계적으로 유의미한지 아닌지를 통해 가설을 검증하는 방법입니다. 가설은 모수에 대한 진술입니다. 따라서 가설 검증은 모수에 대한 추정치가 통계적으로 유의미한지 아닌지를 알아 보는 과정이라 할 것입니다. 
  • 유의도 검정은 다섯 단계로 이루어져 있습니다: 1) 가정assumptions; 2) 가설hypotheses; 3) 검정 통계치test statistic; 4) P값; 5) 결론. 
  • 1) 각각의 검정은 그것이 유효하기 위해 필요한 몇몇 가정을 가지고 있습니다. 가정은 다음 것들로 이뤄져 있습니다: 데이터의 유형; 랜덤화; 모분포; 표본 크기. 
  • 2) 모든 유의도 검정은 두 가지의 가설을 필요로 합니다: 영가설null hypothesis, 대립(대안)가설alternative hypothesis. 영가설은 보통 검증하고자 하는 가설과 반대되는, 즉 ‘XX의 효과가 없다’는 식으로 세워집니다. 이를테면 한국 남자가 여자보다 더 집안일 시간을 적게 들인다는 것을 검증한다고 해 봅시다. 영가설은 ‘한국 남자와 여자의 집안일 시간에는 차이가 없을 것이다’라는 식으로 세워질 것입니다. 대립가설은 물론 ‘차이가 있다(혹은 여자가 남자보다 더 오래 집안일할 것이다)’는 것이겠고요... 
  • 3) The test statistic summarizes how far that estimate falls from the parameter value in H0. 보통 영가설의 값과 추정치가 몇 표준오차만큼 떨어져 있느냐로 표현됩니다. 
  • 4) P값은 영가설이 옳다고 전제했을 때 검정 통계치가 영가설의 값에서 얼마나 떨어져 있는지를 나타내는 확률입니다. 즉 P값이 높을수록 그것은 영가설에 더욱 대립되는 것. 
  • 5) 결론은 보통 다음과 같이 표현. a) P값이 충분히 낮을 때에는 “영가설을 기각 reject”한다고 표현. e.g. “유의수준 .05 수준에서 결과값이 통계적으로 유의미했다.” b) 그러지 않을 때에는 “영가설을 기각할 수 없었다”라고 표현. (왜 이런 식으로 표현해야 하는가? p.158 “Never Accept H0” 참고) 


6.2 Significance Test for a Mean


  • 본 섹션의 내용은 6.1의 과정을 평균mean을 추정하는 것에 대해 적용한 것. 여기서 유의할 것은, P값을 구할 때 우리는 영가설이 참이라는 것을 전제로 한 표집분포를 구성한다는 것. 
  • 거식증 환자 소녀의 몸무게 변화에 대한 사례(eample 6.4): 여기서 영가설은 처치 후 몸무게 변화의 평균 가 0이라는 것. =0, df=28, se=1.357임을 전제하고 t분포를 그려보자. 관측된 통계값(검정 통계치)의 평균값은 3.007임. 이것의 t값은 2.22. 표집분포에서 이 t값의 확률값은 .0173임. 이것은 영가설을 기각하기에 충분함. 따라서 거식증 소녀에게 처치했을 때 몸무게 변화가 있다고 말할 수 있음(=대립가설 채택).
  • 참고: 교재 example 6.4에서는 one-sided test (단측 검정)을 했음. 하지만, two-sided test (양측 검정)을 할 수 있음. (참고: p.151) 양측검정과 단측검정 중 무엇을 선택할지에 대해서는 p.153 참고. 보통의 연구에서는 양측검정을 함. 양측을 할지 단측을 할지는 연구자의 선택!
  • 왜 거식증 소녀 사례에서 양측검정을 하는지 단측검정을 하는지에 따라 significance 값이 변할까요? 잘 생각해 봅시다... (힌트: 절댓값absoulte value) 


  • -level: 유의수준significance level 이라고도 불림. 보통 유의수준은 .05나 .01 수준에서 결정된다. 통계치의 p값이 유의수준보다 낮을 때 우리는 영가설을 기각한다! (만약 위 거식증 소녀 사례에서, 연구자가 유의수준을 .01로 잡는다면 영가설을 기각할 수 없겠죠?) 
  • Robustness for Violations of Normality Assumptions (p.154): 양측검정 t-test의 경우 모분포가 정규분포가 아니더라도 robust하다고 할 수 있습니다! 


6.3 Significance Test for a Proportion


  • 발제에서 Proportion에 관한 유의도 검정 과정은 생략! (mean에 관한 것의 과정과 같음) 
  • p. 158 Never “Accept H0”: 왜 영가설을 채택한다는 결론을 내리는 것이 말이 안 되는지(=왜 우리가 “영가설을 기각할 수 없다”는 식으로밖에 말할 수 없는지) 설명
  • p. 158 Effect of Sample Size on P-values: The larger the sample size, the more certain we can be that sample deviations from H0 are indicative of true population deviations! (즉 아주 쉽게 풀어 말하면, 표본 크기를 크게 할 때 더욱 정확한 결정을 내릴 수 있다는 것... 편차가 줄어들고 신뢰구간이 줄어드니까!!!) 


6.4 Decisions and Types of Errors in Tests


  • 1종 오류Type 1 Error와 2종 오류Type 2 Error란 무엇인가?



H0을 기각하기로 결정

H0 기각하지 않기로 결정

H0가 참이다

1종 오류 

Correct decision

H0가 거짓이다

Correct decision 

2종 오류 



  • 여기서 1종 오류의 확률은 유의수준 값(값)과 같음. (생각해 보면 당연함...) 따라서 유의수준 값을 올린다면 (e.g. from .05 to .01) 1종 오류의 확률 역시 줄어들겠죠. 
  • 다른 중요한 정리는, 1종 오류 확률이 줄어들수록 2종 오류 확률은 올라간다는 것(p.161).
  • Equivalence b/w confidence intervals and test decisions (p.161)
    : 매우 중요한 내용. “특정 신뢰수준에서 영가설을 기각한다는 것은, 똑같은 오차확률범위에서의 신뢰구간이 영가설의 결론을 포함하지 않는다는 것과 같다.”
    : 그림을 보면 더 이해가 쉬움...
    : Example 6.2의 경우. 영가설: 흑인 미국인의 평균 정치 성향이 4.0(=moderate)일 것이다. 대립가설: 흑인 미국인의 평균 정치 성향이 4.0이 아닐 것이다. 검정 결과, 알파값 .05 수준에서 영가설 기각 불가했음. 신뢰구간의 term으로 다시 표현하면, 95% 신뢰구간에서 값은 3.9에서 4.3까지임. (3.9, 4.3)은 영가설의 결론값(평균값) 4.0을 포함함. 신뢰구간을 보아도, .05 신뢰수준에서 영가설 기각할 수 없는 것임.(111쪽의 그림과 162쪽의 그림을 비교해 생각해보면 당연한 것...) 


  • Making Decisions vs. Reporting the P-value (p.162)
    : 요약을 하면, 연구 결론 내릴 때 언제나 p값을 제시하는 게 좋다는 것임. (독자들이 판단할 수 있도록!!) 


6.5 Limitations of Significance Tests


  • 유의도 검정은 그렇게 practical importance가 있지 않음! 
  • 왜냐하면 이론적으로 검정통계치의 평균값과 영가설의 평균값이 0.00001밖에 얼마 차이가 안 나는데 이것의 P값이 역시 0.000001이어서 유의미할 수 있기 때문. (see example 6.7) 
  • 따라서 significance tests are less useful than confidence intervals 라고 말할 수 있다. (단순히 영가설을 기각한다고 말하는 것보다는 신뢰구간을 제시해 주는 게 좋겠죠) 
  • 그렇다면 유의도 검정은 언제 유용하느냐? 바로 여러 그룹들을 비교할 때. 이것은 챕터7에서 살펴볼 것임.