[통계학] 두 집단 사이의 비교
Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.
Ch.7. Comparison of Two Groups (두 집단 사이의 비교)
목차
7.1 Preliminaries for comparing groups
7.2 Categorical Data: Comparing Two Proportions
7.3 Quantitative Data: Comparing Two Means
7.4 Comparing Means with Dependent Samples
7.5 Other Methods for Comparing Means*
7.6 Other Methods for Comparing Proportions*
7.7 Nonparametric Statistics for Comparing Groups*
7.1 Preliminaries for comparing groups
- dependent samples and independent samples
: 종단 연구longtitudinal study처럼, 한 샘플을 여러 차례 관찰하거나 처치할 경우 이것은 dependent sample임. 또한 sample들끼리 matching이 되는 경우도 dependent sample. (e.g. 아내와 남편의 집안일 시간 비교할 때, 아내-남편이 짝지어졌다면...)
: 반면 많은 사회과학 연구에서처럼 두 샘플의 대상이 다른 경우는 independent sample임.
: 왜 구분하는가? 왜냐하면 dependent냐 아니냐에 따라 표준오차 공식이 다르기 때문임.
- Standard error of difference b/w two estimates (in case of independent samples; for dependent samples, see section 7.4)
: estimated standard error:
: 여기서 알 수 있는 것: 두 추정치의 차의 표준오차는, 한 추정치의 표준오차보다 큼! - 차(difference)가 아닌, 2개의 표본 비율이나 표본 평균을 비교하는 다른 방법: ratio (p.186)
7.2 Categorical Data: Comparing Two Proportions
- 두 그룹 사이의 비교 실습! (표본 proportion에 관해... 예시는 기도하는 집단과 기도하지 않는 집단 사이 합병증 발병 빈도에 차이가 있는가? 하는 것)
- 역시 예전 챕터에서 한 것처럼 Confidence interval을 구성할 수도 있고 가설을 세워 significance test를 할 수도 있습니다. (고등학교 수준의 대수학을 무리없이 기억하는 분이라면 유도 과정이 어렵지 않을 거예요...!)
*용어 설명/ Contingency table(분할표): 각각의 열row은 설명(독립)변수의 카테고리, 각각의 행column은 응답(종속)변수의 카테고리를 나타냅니다! ch.8에서는 열 행이 두 개가 넘는 분류표 분석을 배웁니다. 그리고 분할표의 각 셀들은 조건부 확률을 나타낸다는 것을 기억해야겠습니다(고등학교 때 배웠던 것으로 압니다...)
7.3 Quantitative Data: Comparing Two Means
- 중요! independent samples 에서의 standard error 계산 (p.191)
: independent sample의 경우, df를 일반적인 방식으로 구하지 않음. “Welch-Satterthwaite approximation”이라는 것으로 구하는데 식이 복잡해서 텍스트에서는 다루지 않음. 대신 통계 소프트웨어는 해 줌.
: 단 인 경우 df는 (n1+n2-2) 즉 일반적인 식으로 구하면 됩니다. (즉 샘플끼리의 등분산이 가정되지 않는 샘플의 경우 Welch 어쩌구 하는 방식으로 df를 구해야 한다는 것입니다. 좀 더 자세한 내용은 뒤에서 더 다뤄짐.) - Significance test는 두 집단 사이를 비교할 때 유용합니다. (차이가 있는가, 없는가?) (p.193)
- 하지만 one sample inference의 경우처럼 신뢰구간을 제시해준다면은 더 informative 할 것입니다. (p.193)
7.4 Comparing Means with Dependent Samples
- Example 7.5 운전중 휴대폰을 사용하면 반응속도가 느려지는가?
: 이 경우 피험자의 휴대폰 미사용 상태와 사용 상태를 비교하는 것이므로 dependent sample이라고 할 수 있음. (각각의 데이터가 match가 되니까!) - 이러한 matched-pairs data의 경우 이다!
- dependent samples를 쓰는 것의 이득은 무엇일까? (p.196)
1) Potential bias가 통제된다! (예컨대 운전중 휴대폰 사용 예에서... 아마 젊은 피험자들은 나이 많은 피험자들보다 전반적으로 반응속도가 빠르겠죠..? 인구통계학적 특성들..)
2) independent samples에 비해, standard error가 줄어들 수 있다!
7.5 Other Methods for Comparing Means*
- Comparing means while assuming equal standard deviation
: 7.3에서, independent samples의 경우 특별한 방식으로 df를 구해야 한다고 봄. 이는 등분산(=equal standard deviation... 그게 그거)이 가정되지 않았기 때문. 만약 등분산이 가정된다면? df를 보통 쉬운 방식으로 구할 수 있음. 이 섹션에서는 등분산을 예상할 때 쓸 수 있는 방법을 다룸.
: 등분산이 가정된다면 이기 때문에 표준오차도 더 쉬운 식으로 구할 수 있음. (cf. the pooled estimation) - When , 등분산일 때의 통계치와 등분산이 아닐 때의 통계치는 똑같다. (p.199)
- 현실에서 통계 소프트웨어를 쓸 때에는 등분산 가정을 알아서 다 구해주기 때문에... 해석만 잘 하면 됩니다. (p.199-200).
- A model for means (p.200)
: y1과 y2가 똑같은 정규분포를 그릴 것이라는 것이 영가설인 모델을 구성하면, 등분산을 가정하고 통계 검정을 실시하면 됨. 단 y1과 y2의 분산은 다르나 가 같다는 영가설인 모델을 구성하면, 등분산이 가정되지 않은 통계 검정을 실시해야 함. 이런 걸 모델 구축이라 함. 모델 구축은 통계 분석하기 전에 하는 것이고 이것은 매우 중요함.
7.6 Other Methods for Comparing Proportions*
- McNemar Test
: Two dependent proportions를 비교할 때 쉬운 z-test가 있습니다. 이것을 맥니마 검정이라고 부릅니다. 이것은 샘플 수가 충분히 커야 사용할 수 있습니다. (when 가 20보다 클 때) Example 7.8 에 대해 McNemar Test를 하면 z=4.88 나옵니다(p.202). 이것은 p.201의 방식에서 구한 z값과 같습니다.
- Fisher’s exact test for comparing proportions
: 샘플 사이즈가 작으면 의 표집분포가 정규분포에 근사하지 않을 수 있음. 이 경우 Fisher’s exact test 사용. (p.203) 계산은 복잡해서 본 텍스트에서 다루지 않음.
7.7 Nonparametric Statistics for Comparing Groups*
- 모분포의 모양에 대해 가정하지 않는 통계적 방법이 있음. 이를 ‘비모수nonparametric 통계학’이라고 합니다. 7.7 섹션의 경우 비모수 통계학 방법을 소개합니다...
'기타 공부' 카테고리의 다른 글
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
---|---|
[통계학] 분산분석(ANOVA; Analysis of Variance) (0) | 2018.02.08 |
[통계학] 범주형 변수 간의 연관 분석 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정 (0) | 2018.02.02 |
[통계학] 확률분포 (0) | 2018.02.02 |