[통계학] 분산분석(ANOVA; Analysis of Variance)
Agresti and Finlay, Statistical Methods for the Social Sciences, 4th ed.
Ch.12. Comparing Groups: Analysis of Variance (ANOVA) Methods
목차
12.1 Comparing several means: the analysis of variance f test
12.2 Multiple comparisons of means
12.3 Performing ANOVA by regresssion modeling
12.4 Two-way analysis of variance
12.5 Two-way ANOVA and regression
12.6 Repeated measures analysis of variance*
12.7 Two-way ANOVA with repeated measures on a factor*
12.8 Effects of violations of ANOVA assumptions
12.1 Comparing several means: the analysis of variance f test
- Ch.7, 두 집단 사이의 비교 제시. 여기서는 여러 집단 간의 비교 방법을 탐구.
- ANOVA는 범주형 변수인 독립변수와 양적 변수인 종속변수 사이의 관계를 다룬다.
예시: 인종(black, white, or Hispanic)이 연 수입에 끼치는 영향.
백인, 흑인, 히스패닉의 연 수입을 이라고 각각 표기하자.
이 경우 ANOVA 분석의 가설들은 다음과 같다.
영가설: (각각 그룹의 모평균이 동일하다. I.e. 인종에 따라 수입 차이 없다.)
대립가설: 적어도 두 그룹 사이의 모평균은 같지 않다. (영가설에 반대되는 명제.)
- ANOVA 검정은 F-test를 사용한다. (통계학자 Fisher의 이름을 따서 F-test)
- ANOVA 검정의 가정들
1) 각각의 그룹에 대해, 종속변수의 모분포 y는 정규분포이다.
2) 각각의 집단의 모표준편차 는 모두 동일하다.
3) 모집단에서 뽑힌 샘플들은 독립적인 랜덤 샘플이다.
여기서 가장 중요한 것은 랜덤 샘플링 가정!
- 집단 간의 모평균을 비교하는 방법이 왜 “분산분석”이라고 불리는 것일까?
왜냐하면 ANOVA는 각각 그룹의 의 두 추정치를 분석하는 것이기 때문이다.
(1) 각각의 샘플 평균 과 전체 평균 y “사이의between” 분산
(2) 각각 그룹 “내의within” 분산
- 따라서 분산분석의 F 통계치는 다음과 같다.
F = (Between-groups estimate of variance) / (Within-groups estimate of variance)
- 만약 영가설이 옳다면 F 통계치는 1에 근접하게 된다. (책의 Figure 12.1 참고하면 이해 쉬움.) F통계치가 커질수록, 영가설에 대립되는 증거는 강해지는 것이다.
- 변량 통계치 구하는 법
(1) Within-Groups Estimate of Variance
Within-group sum of squares / df
이는 다시 말해,
* df = N-g (g: number of groups)
(2) Between-Groups Estimate of Variance
다음과 같이 구한다. 여기서 df=g-1 이다.
즉 그룹이 i개 있다고 했을 때, (한 그룹의 평균 – 전체 평균)*해당 그룹의 크기(=n) 한 것을 i번째 그룹까지 해서 모두 합하고 df로 나눠주면 되는 것이다.
여기서 Between-groups Sum of Squares + Within-groups Sum of Squares = TSS 이다.
- F test vs. Several t tests
F 검정은 여러 집단 사이에 평균 차이가 있는지를 검정하는 것. 물론 우리는 n개의 집단에 대해 n(n-1)/2번의 t-test를 해서 평균 차이를 검정할 수 있음. 하지만 이 경우 1종 오류의 가능성이 높아지게 되는 문제점이 있다.
12.2 Multiple comparisons of means
- ANOVA 분석에서 특정 그룹의 모평균의 신뢰구간
(여기서 s는 Within-groups SS/df; 그리고 t분포의 df=N-g)
단점: g개의 그룹에 대해서는 g(g-1)/2개의 쌍에 대해 평균 비교를 해야 함. 많은 쌍들의 비교는 에러의 확률을 높인다.
- Bonferroni Multiple Comparisons of Means
multiple comparison methods 중 하나. (비슷한 방식: Tukey Multiple Comparisons of Means)
multiple comparison error rate: 적어도 한 짝의 신뢰구간에 에러가 있을 확률...
만약 4개의 쌍을 비교하고, multiple comparison error rate를 0.1으로 하고 싶다면? 각각의 신뢰구간의 confidence level을 97.5%로(=즉 각각 신뢰구간의 알파값을 .025로) 정하면 된다. 그렇다면 .025 * 4 = .1 이 된다.
12.3 Performing ANOVA by regresssion modeling
- ANOVA는 다중회귀분석의 특별한 경우(a special case)임. 따라서 회귀분석 모델에 “더미변수”를 추가함으로써 ANOVA를 시행할 수 있음.
- 세 개의 그룹을 비교하기 위해서는 두 개의 더미변수 가 필요함.
(1) z1=1 and z2=0: group 1의 관측치
(2) z1=0 and z2=1: group 2의 관측치
(3) z1=0 and z2=0: group 3의 관측치
이 경우 다중회귀방정식은 다음과 같음.
여기서 group3의 경우 z1=0, z2=0이기 때문에 그룹3의 평균(기댓값)은 alpha가 됨.
비슷한 방식으로 식을 변형하면, ; 이다.
g개의 카테고리가 있는 범주형 변수를 나타내기 위해서는, g-1개의 항이 필요하다.
ANOVA F test의 영가설은 모든 그룹의 모평균이 같다는 것이다.
회귀분석 모델을 세워 ANOVA를 하기 위해서는 영가설을 으로 세우면 된다. (또한 회귀분석의 가정—the conditional distributions of y about the regression equation are normal with constant standard deviation—은 ANOVA F test의 가정과 비슷함.)
|
SS |
df |
Mean Square |
F Value |
Sig |
Regression |
88.43 |
2 |
44.21 |
26.3 |
0.000 |
Residual |
459.52 |
273 |
1.68 |
|
|
Total |
547.95 |
275 |
|
|
|
위의 표는 교과서의 Table 12.7 옮긴 것. 여기서 Regression SS는 Between-groups SS와 동일함. Residual SS는 within-groups SS와 동일. 따라서 TSS=Between-groups SS + within-groups SS.
왜 ANOVA를 하기 위해 회귀분석을 하는가? (p.381)
12.4 Two-way analysis of variance (이원분산분석)
- 두 개의 범주형 변수가 양적 변수인 종속변수에 미치는 영향을 분석하는 것임.
- 주효과 main effects: The effects of individual predictors tested in these two null hypotheses.
(상호작용 효과 interaction effects 와 구분됨)
- Two-way ANOVA에서의 F통계치
F = MS for the predictor / MS error
(i.e. the ratio of mean squares.)
여기서 MS for the predictor란, 예측변수에 대한 between-groups variance의 추정치/df.
여기서 MS error (=MSE)란 within-groups variance 추정치/df.
(계산식은 몰라도 됨. 소프트웨어가 다 해준다.)
어떻게 특정 설명변수 a를 통제하고 b의 주효과를 계산하는지는 p.383-4에서 예제로 잘 설명해주고 있다.
- Two-way ANOVA에서의 상호작용(interaction)
p.383-4의 예제에서는 바로 주효과 테스트를 했지만, 실제로 연구를 할 때 우리는 주효과 테스트 전 “상호작용”이 존재하는가를 먼저 테스트해야 한다. (상호작용이 왜 중요한가... Section 10.3, 11.5 참조)
상호작용이 존재하는지의 테스트는 다음 영가설을 바탕으로 진행된다. H0: no interaction.
여기서의 F 통계치는 이다. MS(AB)는 sample degree of interaction의 mean square..
영가설을 기각할 수 없으면...? 바로 주효과 분석을 해도 괜찮은 것...
12.5 Two-way ANOVA and regression
- one way ANOVA에서처럼 regression 모델을 세워 분산분석을 할 수 있다.
- (이 경우 더미변수를 여러 개 세워야 함.) p.387 예제에서는 세 개를 세움.
- Interaction이 존재하는지 test 하는 방법은 p.389에 잘 보여진다.
- 만약 상호작용이 존재한다면 summary comparisons of categories of one variable을 만들기는 곤란하다. (p.391)
'기타 공부' 카테고리의 다른 글
[R] 자료 객체 (1): 벡터 vector (0) | 2018.05.27 |
---|---|
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
[통계학] 범주형 변수 간의 연관 분석 (0) | 2018.02.02 |
[통계학] 두 집단 사이의 비교 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정 (0) | 2018.02.02 |