Agresti and Finlay, Statistical Methods for the Social Sciences, 4th ed. 

Agresti_ch.12.pdf



Ch.12. Comparing Groups: Analysis of Variance (ANOVA) Methods


목차 

12.1 Comparing several means: the analysis of variance f test

12.2 Multiple comparisons of means

12.3 Performing ANOVA by regresssion modeling 

12.4 Two-way analysis of variance

12.5 Two-way ANOVA and regression

12.6 Repeated measures analysis of variance*

12.7 Two-way ANOVA with repeated measures on a factor*

12.8 Effects of violations of ANOVA assumptions



12.1 Comparing several means: the analysis of variance f test


  • Ch.7, 두 집단 사이의 비교 제시. 여기서는 여러 집단 간의 비교 방법을 탐구.
  • ANOVA는 범주형 변수인 독립변수와 양적 변수인 종속변수 사이의 관계를 다룬다.
    예시: 인종(black, white, or Hispanic)이 연 수입에 끼치는 영향.
    백인, 흑인, 히스패닉의 연 수입을 이라고 각각 표기하자.
    이 경우 ANOVA 분석의 가설들은 다음과 같다.
    영가설:  (각각 그룹의 모평균이 동일하다. I.e. 인종에 따라 수입 차이 없다.)
    대립가설: 적어도 두 그룹 사이의 모평균은 같지 않다. (영가설에 반대되는 명제.)
  • ANOVA 검정은 F-test를 사용한다. (통계학자 Fisher의 이름을 따서 F-test)
  • ANOVA 검정의 가정들
    1) 각각의 그룹에 대해, 종속변수의 모분포 y는 정규분포이다.
    2) 각각의 집단의 모표준편차 는 모두 동일하다.
    3) 모집단에서 뽑힌 샘플들은 독립적인 랜덤 샘플이다.
    여기서 가장 중요한 것은 랜덤 샘플링 가정!
  • 집단 간의 모평균을 비교하는 방법이 왜 “분산분석”이라고 불리는 것일까?
    왜냐하면 ANOVA는 각각 그룹의 의 두 추정치를 분석하는 것이기 때문이다.
    (1) 각각의 샘플 평균 과 전체 평균 y “사이의between” 분산
    (2) 각각 그룹 “내의within” 분산
  • 따라서 분산분석의 F 통계치는 다음과 같다.

    F = (Between-groups estimate of variance) / (Within-groups estimate of variance)
  • 만약 영가설이 옳다면 F 통계치는 1에 근접하게 된다. (책의 Figure 12.1 참고하면 이해 쉬움.) F통계치가 커질수록, 영가설에 대립되는 증거는 강해지는 것이다.
  • 변량 통계치 구하는 법
    (1) Within-Groups Estimate of Variance
     Within-group sum of squares / df
    이는 다시 말해, 

    * df = N-g (g: number of groups)

    (2) Between-Groups Estimate of Variance
    다음과 같이 구한다.  여기서 df=g-1 이다.
    즉 그룹이 i개 있다고 했을 때, (한 그룹의 평균 전체 평균)*해당 그룹의 크기(=n) 한 것을 i번째 그룹까지 해서 모두 합하고 df로 나눠주면 되는 것이다. 

    여기서 Between-groups Sum of Squares + Within-groups Sum of Squares = TSS 이다.
  • F test vs. Several t tests
    F 검정은 여러 집단 사이에 평균 차이가 있는지를 검정하는 것. 물론 우리는 n개의 집단에 대해 n(n-1)/2번의 t-test를 해서 평균 차이를 검정할 수 있음. 하지만 이 경우 1종 오류의 가능성이 높아지게 되는 문제점이 있다.

12.2 Multiple comparisons of means


  • ANOVA 분석에서 특정 그룹의 모평균의 신뢰구간
     (여기서 s는 Within-groups SS/df; 그리고 t분포의 df=N-g)
    단점: g개의 그룹에 대해서는 g(g-1)/2개의 쌍에 대해 평균 비교를 해야 함. 많은 쌍들의 비교는 에러의 확률을 높인다.
  • Bonferroni Multiple Comparisons of Means
    multiple comparison methods 중 하나. (비슷한 방식: Tukey Multiple Comparisons of Means)
    multiple comparison error rate: 적어도 한 짝의 신뢰구간에 에러가 있을 확률...
    만약 4개의 쌍을 비교하고, multiple comparison error rate를 0.1으로 하고 싶다면? 각각의 신뢰구간의 confidence level을 97.5%로(=즉 각각 신뢰구간의 알파값을 .025로) 정하면 된다. 그렇다면 .025 * 4 = .1 이 된다.


12.3 Performing ANOVA by regresssion modeling 


  • ANOVA는 다중회귀분석의 특별한 경우(a special case)임. 따라서 회귀분석 모델에 “더미변수”를 추가함으로써 ANOVA를 시행할 수 있음. 
  • 세 개의 그룹을 비교하기 위해서는 두 개의 더미변수 가 필요함.
    (1) z1=1 and z2=0: group 1의 관측치
    (2) z1=0 and z2=1: group 2의 관측치
    (3) z1=0 and z2=0: group 3의 관측치
    이 경우 다중회귀방정식은 다음과 같음.
     
    여기서 group3의 경우 z1=0, z2=0이기 때문에 그룹3의 평균(기댓값)은 alpha가 됨.
    비슷한 방식으로 식을 변형하면,  ;  이다.

    g개의 카테고리가 있는 범주형 변수를 나타내기 위해서는, g-1개의 항이 필요하다. 

    ANOVA F test의 영가설은 모든 그룹의 모평균이 같다는 것이다.
    회귀분석 모델을 세워 ANOVA를 하기 위해서는 영가설을  으로 세우면 된다. (또한 회귀분석의 가정the conditional distributions of y about the regression equation are normal with constant standard deviation은 ANOVA F test의 가정과 비슷함.)


SS

df

Mean Square

F Value

Sig

Regression

88.43

2 

44.21

26.3

0.000

Residual

459.52

273

1.68



Total

547.95

275






위의 표는 교과서의 Table 12.7 옮긴 것. 여기서 Regression SS는 Between-groups SS와 동일함. Residual SS는 within-groups SS와 동일. 따라서 TSS=Between-groups SS + within-groups SS.

왜 ANOVA를 하기 위해 회귀분석을 하는가? (p.381)



12.4 Two-way analysis of variance (이원분산분석)


  • 두 개의 범주형 변수가 양적 변수인 종속변수에 미치는 영향을 분석하는 것임. 
  • 주효과 main effects: The effects of individual predictors tested in these two null hypotheses.
    (상호작용 효과 interaction effects 와 구분됨) 


  • Two-way ANOVA에서의 F통계치
    F = MS for the predictor / MS error
    (i.e. the ratio of mean squares.)
    여기서 MS for the predictor란, 예측변수에 대한 between-groups variance의 추정치/df.
    여기서 MS error (=MSE)란 within-groups variance 추정치/df.
    (계산식은 몰라도 됨. 소프트웨어가 다 해준다.)
    어떻게 특정 설명변수 a를 통제하고 b의 주효과를 계산하는지는 p.383-4에서 예제로 잘 설명해주고 있다.
  • Two-way ANOVA에서의 상호작용(interaction)
    p.383-4의 예제에서는 바로 주효과 테스트를 했지만, 실제로 연구를 할 때 우리는 주효과 테스트 전 “상호작용”이 존재하는가를 먼저 테스트해야 한다. (상호작용이 왜 중요한가... Section 10.3, 11.5 참조)

    상호작용이 존재하는지의 테스트는 다음 영가설을 바탕으로 진행된다. H0: no interaction.
    여기서의 F 통계치는  이다. MS(AB)는 sample degree of interaction의 mean square..
    영가설을 기각할 수 없으면...? 바로 주효과 분석을 해도 괜찮은 것...

12.5 Two-way ANOVA and regression


- one way ANOVA에서처럼 regression 모델을 세워 분산분석을 할 수 있다. 

- (이 경우 더미변수를 여러 개 세워야 함.) p.387 예제에서는 세 개를 세움.
- Interaction이 존재하는지 test 하는 방법은 p.389에 잘 보여진다. 

  • 만약 상호작용이 존재한다면 summary comparisons of categories of one variable을 만들기는 곤란하다. (p.391)