Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.


Agresti_ch.8.pdf



Ch.8. Analyzing Association between Categorical Variables


목차 

8.1 Contingency Tables 분할표 

8.2 Chi-squared Test of Independence 카이제곱 독립성 검정 

8.3 Residuals: Detecting the Pattern of Contingency Table 잔차: 분할표의 패턴 찾기 

8.4 Measuring Association in Contingency Tables 분할표에서 연관성 측정 

8.5 Association between Ordinal Variables* 서열 변수간의 연관성 

8.6 Inference for Ordinal Associations* 서열 변수의 연관성 추론 


8.1 Contingency Tables



정당지지 (괄호 안은 퍼센테이지)


Gender

민주당

중립

공화당

Total

573(38)

516(34)

422(28)

1511(100)

386(31)

475(38)

399(32)

1260(101)

Total

959

991

821

2711

  • Contingency Tables: 분할표
    Row와 Column으로 구성. cell 안에는 도수frequency나 퍼센테이지가 포함될 수 있음.
      기타 개념
    1) Marginal distributions 주변 분포 row totals, column totals를 부르는 말. (e.g. 푸른 셀: The sample marginal distribution for paty identification)
    2) conditional distributions 조건부 분포 (e.g. 붉은 셀: 정당지지의 남성의 대한 조건부 분포)
    3) joint distribution 결합 분포 (i.e. 셀 안의 빈도 수 / total n size)
    *참고: 독립, 종속변수를 구분할 때에는 joint distribution보다는 conditional distribution이 더 쓸모가 있음(more informative). 


  • independence and dependence
    두 범주형 변수에서, 한 변수의 모집단의 조건부 분포가 다른 변수의 그것과 같다면 우리는 이를 statistically independent 하다고 부른다. Otherwise? statistically dependent!
    * 앞의 예시를 본다면, 여성의 정당지지 (모)분포가 남성의 그것과 같다면 이는 통계적으로 독립적인 것이겠지요.
    * 문제는 여기서 우리는 모분포를 모르고 표본의 조건부 분포만을 아니까  등의 통계적 검정을 실시해야 하는 귀찮은 절차를 밟아야 하는 것입니다.
  • 8.2 Chi-squared Test of Independence 카이제곱 독립성 검정 

  • - 카이제곱 독립성 검정에 사용되는 가설 세우기
     두 변수는 통계적으로 독립적이다. 

     두 변수는 통계적으로 종속적이다.

    - 카이제곱 계산 



    여기서  는 expected frequency를 뜻함.  는 observed frequency를 뜻함. 


    Expected frequency는 만약 두 범주형 변수가 독립적이라고 가정했을 때의 도수입니다.
    구하는 방법은 조금 복잡해 보이지만 잠시만 생각한다면 쉽습니다. 위의 예에서 성차가 없다고 가정했을 때 여성 민주당원 수가 어떻게 될지 생각해 봅시다. 남녀 모두의 수는 2771명입니다. 이중 샘플에서 남녀 민주당 지지자는 959명입니다. 그렇다면 (959/2771)이 남녀 관계없이 민주당 지지자 비율이 될 것입니다. 여기서 여성 전체 수를 곱하면 (i.e. (959/2711)*1511) 성차가 따로 없다고 생각했을 때 여성 민주당원 수의 기댓값이 되겠죠. 이 과정을 모든 셀에 대해서 반복하면 됩니다. 


    • 카이제곱 분포의 특징
      (1) 카이제곱 통계치는 음수가 될 수 없기 때문에, 실수 직선(real line)의 양수 부분에 집중되어 있음. (다시 말해, 카이제곱 분포 곡선은 제1사분면에만 존재함.)
      (2) Skewed to the right
      (3) 카이제곱 분포의 정확한 모양은 df에 의해 결정됨. df가 증가할수록 카이제곱 분포는 bell shape에 가까워짐. *df = (r-1)(c-1)
      (4) 카이제곱 값이 클수록, 영가설을 기각할 수 있는 가능성이 커진다!
    • Fisher’s exact test
      : 카이제곱은, 분할표 각각의 셀에서 기대빈도()가 5를 넘어야 사용하는 것이 적절함.
      : 만약 못 넘는다면? Fisher’s exact test를 쓰면 된다! 프로그램이 알아서 계산해 줍니다.
    • Chi-squared tests and treatment of categories
      (1) 카이제곱 검정은 종속변수와 독립변수의 순서에 전혀 영향받지 않는다. 카이제곱 검정은 동질성 검정이라고도 불린다.
      (2) 카이제곱 검정은 nominal 변수를 다룰 때 쓰는 것이 적절하다. (ordinal 변수에 대해서도 쓸 수는 있지만...) ordinal 변수에 적절한 독립성 검정은 섹션 8.6에서 다뤄진다. 


    8.3 Residuals: Detecting the Pattern of Contingency Table 잔차: 분할표의 패턴 찾기 


    • 카이제곱은 association의 strength에 대한 정보를 제공하지 못한다.
      : 즉 바꿔 말해 이는 카이제곱 검정에서 p값이 0에 수렴해도 관계가 그다지 strength하지 않을 수 있다는 것이다.
      : 카이제곱 검정에서 p값은 샘플 사이즈 n에 따라 결정된다. (p.235 참조!)
    • Residual Analysis
      : 다음을 잔차라고 부른다. 
      : 잔차분석은 분할표에서 cell-by-cell 비교를 가능케 해준다.

      : Standardized residual 표준화 잔차 

    • Standardized residual을 구하면 z값이 나온다. z분포표에 대입해서 p값을 찾으면 된다. e.g. 우리의 예에서 (1,1)번 셀(=민주당지지 여성)의 z값은 4.0이다. 이는 즉 성별과 정당지지 변수가 독립적이라고 가정했을 때(=영가설의 가정) 관측된 데이터가 매우 unusual하다는 증거! 


    • Chi-squared and difference of proportions for 2*2 tables
      : 이 경우에서 카이제곱 검정은, 두 집단의 proportion이 같다는 것을 영가설로 세운 가설검정과 동일함. (우리가 Section 7.2에서 했던 것임.)
      : z = (estimate null hypothesis value) / se = 
      : 여기서 특성은  이라는 것입니다. 또한 2*2 테이블에서 z-test 양측검정시의 p-value는 카이제곱 검정에서의 p-value와 같습니다. (왜냐하면 df=1일 때의 카이제곱 분포와 표준정규분포 사이에 직접적인 관계가 있기 때문에!)  


    • Standardized Residuals for 2*2 tables
      : 2*2 테이블에서 residual analysis를 할 때, each standardized residual은 z test 값과 같음. (또한 위에서 살펴보았듯이 )
      : 2*2 테이블에서 df=1이기 때문에 한 셀의 standardized residual 만 구해도, 나머지 모든 셀의 residual 값을 알 수 있음.
    • Chi-squared needed for larger tables than 2*2
      : 카이제곱은 2*2보다 큰 테이블을 비교할 때 유용함. (2*2의 경우, 그냥 t검정이나 z검정을 해도 됨.)
      : 물론 2*2보다 큰 경우에 대해서도 z검정을 할 수 있음. 하지만 z검정은 두 모수의 차이가 유의미한지 알아보는 기법이기 때문에, z검정을 여러 차례 실시해야 할 것임.

    8.4 Measuring Association in Contingency Tables 분할표에서 연관성 측정 


    • A measure of association: 두 변수 간의 종속관계가 얼마나 강한지 알려주는 모수나 통계치.
    • Difference of Proportions (비율 차)
      : p.234에서 구하는 방법이 제시되어 있음. 비율 차는 0에서 1까지의 값을 가질 수 있음. 
    • 카이제곱은 association의 정도를 알려주지 못함. (p.235)
    • The odds ratio 승산비
      : 여기서 승산은 다음과 같이 구함. Odds = Probability of success / probability of failure
      e.g. 동전의 앞면과 뒷면의 경우 (앞면이 나오면 내기에서 이긴다고 합시다)


    Success (Head)

    Failure (Tail)

    Probability

    1/2 

    1/2 


    여기서 성공할 확률이 1/2이기 때문에, odds = (1/2) / (1/2) = 1.

    - odds 의 속성
    (1) 0 또는 양수이다.
    (2) 값이 1보다 크면은, 성공이 실패보다 more likely 하다... [e.g. odds가 3이다? 아마 1번 실패하면 3번 성공할 것을 기대할 수 있겠죠.]
    (3) 역수(reciprocal)를 씌운다면... e.g. odds가 1/3이다: 1번 성공하면, 3번 실패할 것이다. 

    (4)  ; 즉 odds를 알면 probability를 구할 수 있다. 


    • Odds ratio
      : The ratio of odds from the two rows of a 2*2 table is called the odds ratio.
      for example:
      행: Offender
      열: Victim
    • White 

      Black

      total

      White

      3150

      230

      3380

      Black

       516

      2984

      3500



      • : row 1과 row 2의 odds ratio = a/b (odds ratio는 번데기 로 표현)
        : 예제를 통해 구해보자면,

        1행의 Odds = Probability of success / probability of failure
        = (3150/3380) / (230/3380) = 13.7 이는 백인 가해자의 경우 흑인이 1명 죽을 때마다 13.7명의 백인 victims이 있으리라는 것을 의미. 동일한 것을 2행에 대해 하면 0.173 산출.
         Odds for white offenders / Odds for black offenders = 79.2
        * this odds ratio의 의미: 백인 가해자의 경우 그가 가해한 사람이 백인일 승산(odds)이, 흑인 가해자의 경우 흑인 가해자가 가해한 사람이 백인일 승산보다 79배 크다는 것이다.
      • Odds ratio 의 속성 (p.236-237)
        (1) 연구자가 종속변수를 뭘로 설정하든지 odds ratio의 값은 변하지 않는다. I.e. 종속, 독립변수의 순서가 뒤바뀌어도 odds ratio의 값이 변하지는 않는다.
        (2) 는, 2*2테이블에서 대각선 셀들을 곱한 수 두 개의 비율과 똑같다! (이 때문에 odds ratio is also called the cross-product ratio.)
        (3) odds ratio가 1보다 클수록, stronger association을 나타냄.
        *기타 내용은 텍스트 참조
        ** 중요! Odds ratioRelative risk!!! (for relative risk, see p.186) Odds ratio는 승산의 비율이지, 확률의 비율이 아님!! (확률의 비율은 relative risk라 부른다.) 


      • Summary Measures of Association for r*c tables
        : 양적 변수들의 경우는 상관(correlation)이 좋은 summary measure.
        : ordinal 변수의 경우, gamma는 비슷한 summary measure가 될 수 있음.
        : 하지만 분할표의 행렬 수가 2를 넘어가는 nominal 변수의 경우, 하나의 summary measure는 oversimplification일 수 있다. (왜냐하면 경우의 수가 많기 때문에!) 따라서 여기서 명목변수에 대한 summary measure는 소개하지 않기로 한다. 



      8.5 Association between Ordinal Variables* 서열 변수간의 연관성 


      - Concordant pair = C; Discordant pair = D 

      - 구하는 방법: 240-241쪽 참조. (어렵지 않음... 직관적임.) 


      그렇다면 summary measure인 감마는 어떻게 구하는가?!  

      감마의 특성: (1) 감마는 1에서 +1 사이이다; (2) 감마의 부호는 관계가 정적(+)이냐 부적(-) 이냐를 알려줌; (3) 감마의 절대값이 클수록 관계는 더욱 센strong 것임.


      *Gamma 외의, Kendall’s tau-b, tau-c 등의 계수가 있으나 대체로 비슷하기 때문에 텍스트에서는 다루지 않을 것임 (p.242-243.)

      8.6 Inference for Ordinal Associations* 서열 변수의 연관성 추론 


      - Confidence intervals for Measures of Association: 

      : 표본 감마  의 표집분포는 정규분포에 근사하기 때문.
      : se 구하는 식은 복잡하기 때문에 다루지 않음.

      아래와 같은 가설 검정도 가능함. 여기서  이다. 

       or   (one sided form)



      • Ordinal tests vs. Pearson chi-squared test
        : 대체로 카이제곱보다 ordinal tests 방법이 쓸만함. 이는, 카이제곱은 서열변수의 순서를 무시하기 때문임. 그래서 gamma가 두 조건적 분포 간의 dependence를 찾아내는 반면 chi-squared는 그것을 못 찾아내는 경우가 존재할 수 있는 것.
        : 그러나 ordinal tests의 약점도 있음. 현실에서는 매우 unusual한 케이스지만, 서열변수간의 관계가 one-trend가 아닌 경우(see table 8.19 in p.245) 감마는 relation을 못 찾아냄!

      • Similar inference methods for other ordinal measures
        : Kendall’s tau-b 의 경우도 위의 감마에서 했던 방법처럼 추론이 가능하다.
        : 가능하다면 ordinal 변수의 카테고리를 촘촘이 설정하는 게 좋다 (예: 흙수저/금수저보다는 1분위~10분위 구분이 좋다). 왜냐하면, 카테고리가 많을수록 standard error가 줄어들기 때문.



      • Mixed ordinal-nominal contingency tables
        2가지의 카테고리만 있는 명목변수와 서열변수의 관계 비교시, ordinal measures of association은 여전히 유효함. (예: 아래의 표) 하지만 명목변수의 카테고리가 3개 넘는다면 감마 등의 measure는 부적절함. (이 경우 ch.12에서 다뤄지는 ANOVA를 쓰는 게 좋음.)



      안 행복

      행복

      매우 행복

      여자

      a

      b

      c

      남자

      d

      e

      f