[통계학] 범주형 변수 간의 연관 분석
Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.
Ch.8. Analyzing Association between Categorical Variables
목차
8.1 Contingency Tables 분할표
8.2 Chi-squared Test of Independence 카이제곱 독립성 검정
8.3 Residuals: Detecting the Pattern of Contingency Table 잔차: 분할표의 패턴 찾기
8.4 Measuring Association in Contingency Tables 분할표에서 연관성 측정
8.5 Association between Ordinal Variables* 서열 변수간의 연관성
8.6 Inference for Ordinal Associations* 서열 변수의 연관성 추론
8.1 Contingency Tables
|
정당지지 (괄호 안은 퍼센테이지) |
|
||
Gender |
민주당 |
중립 |
공화당 |
Total |
여 |
573(38) |
516(34) |
422(28) |
1511(100) |
남 |
386(31) |
475(38) |
399(32) |
1260(101) |
Total |
959 |
991 |
821 |
2711 |
- Contingency Tables: 분할표
Row와 Column으로 구성. cell 안에는 도수frequency나 퍼센테이지가 포함될 수 있음.
기타 개념
1) Marginal distributions 주변 분포 – row totals, column totals를 부르는 말. (e.g. 푸른 셀: The sample marginal distribution for paty identification)
2) conditional distributions 조건부 분포 (e.g. 붉은 셀: 정당지지의 남성의 대한 조건부 분포)
3) joint distribution 결합 분포 (i.e. 셀 안의 빈도 수 / total n size)
*참고: 독립, 종속변수를 구분할 때에는 joint distribution보다는 conditional distribution이 더 쓸모가 있음(more informative).
- independence and dependence
두 범주형 변수에서, 한 변수의 모집단의 조건부 분포가 다른 변수의 그것과 같다면 우리는 이를 statistically independent 하다고 부른다. Otherwise? statistically dependent!
* 앞의 예시를 본다면, 여성의 정당지지 (모)분포가 남성의 그것과 같다면 이는 통계적으로 독립적인 것이겠지요.
* 문제는 여기서 우리는 모분포를 모르고 표본의 조건부 분포만을 아니까 등의 통계적 검정을 실시해야 하는 귀찮은 절차를 밟아야 하는 것입니다.
- 8.2 Chi-squared Test of Independence 카이제곱 독립성 검정
- 카이제곱 분포의 특징
(1) 카이제곱 통계치는 음수가 될 수 없기 때문에, 실수 직선(real line)의 양수 부분에 집중되어 있음. (다시 말해, 카이제곱 분포 곡선은 제1사분면에만 존재함.)
(2) Skewed to the right
(3) 카이제곱 분포의 정확한 모양은 df에 의해 결정됨. df가 증가할수록 카이제곱 분포는 bell shape에 가까워짐. *df = (r-1)(c-1)
(4) 카이제곱 값이 클수록, 영가설을 기각할 수 있는 가능성이 커진다!
- Fisher’s exact test
: 카이제곱은, 분할표 각각의 셀에서 기대빈도()가 5를 넘어야 사용하는 것이 적절함.
: 만약 못 넘는다면? Fisher’s exact test를 쓰면 된다! 프로그램이 알아서 계산해 줍니다.
- Chi-squared tests and treatment of categories
(1) 카이제곱 검정은 종속변수와 독립변수의 순서에 전혀 영향받지 않는다. 카이제곱 검정은 동질성 검정이라고도 불린다.
(2) 카이제곱 검정은 nominal 변수를 다룰 때 쓰는 것이 적절하다. (ordinal 변수에 대해서도 쓸 수는 있지만...) ordinal 변수에 적절한 독립성 검정은 섹션 8.6에서 다뤄진다. - 카이제곱은 association의 strength에 대한 정보를 제공하지 못한다.
: 즉 바꿔 말해 이는 카이제곱 검정에서 p값이 0에 수렴해도 관계가 그다지 strength하지 않을 수 있다는 것이다.
: 카이제곱 검정에서 p값은 샘플 사이즈 n에 따라 결정된다. (p.235 참조!)
- Residual Analysis
: 다음을 잔차라고 부른다.
: 잔차분석은 분할표에서 cell-by-cell 비교를 가능케 해준다.
: Standardized residual 표준화 잔차
- Standardized residual을 구하면 z값이 나온다. z분포표에 대입해서 p값을 찾으면 된다. e.g. 우리의 예에서 (1,1)번 셀(=민주당지지 여성)의 z값은 4.0이다. 이는 즉 성별과 정당지지 변수가 독립적이라고 가정했을 때(=영가설의 가정) 관측된 데이터가 매우 unusual하다는 증거!
- Chi-squared and difference of proportions for 2*2 tables
: 이 경우에서 카이제곱 검정은, 두 집단의 proportion이 같다는 것을 영가설로 세운 가설검정과 동일함. (우리가 Section 7.2에서 했던 것임.)
: z = (estimate – null hypothesis value) / se =
: 여기서 특성은 이라는 것입니다. 또한 2*2 테이블에서 z-test 양측검정시의 p-value는 카이제곱 검정에서의 p-value와 같습니다. (왜냐하면 df=1일 때의 카이제곱 분포와 표준정규분포 사이에 직접적인 관계가 있기 때문에!) - Standardized Residuals for 2*2 tables
: 2*2 테이블에서 residual analysis를 할 때, each standardized residual은 z test 값과 같음. (또한 위에서 살펴보았듯이 )
: 2*2 테이블에서 df=1이기 때문에 한 셀의 standardized residual 만 구해도, 나머지 모든 셀의 residual 값을 알 수 있음.
- Chi-squared needed for larger tables than 2*2
: 카이제곱은 2*2보다 큰 테이블을 비교할 때 유용함. (2*2의 경우, 그냥 t검정이나 z검정을 해도 됨.)
: 물론 2*2보다 큰 경우에 대해서도 z검정을 할 수 있음. 하지만 z검정은 두 모수의 차이가 유의미한지 알아보는 기법이기 때문에, z검정을 여러 차례 실시해야 할 것임.
- A measure of association: 두 변수 간의 종속관계가 얼마나 강한지 알려주는 모수나 통계치.
- Difference of Proportions (비율 차)
: p.234에서 구하는 방법이 제시되어 있음. 비율 차는 0에서 1까지의 값을 가질 수 있음. - 카이제곱은 association의 정도를 알려주지 못함. (p.235)
- The odds ratio 승산비
: 여기서 승산은 다음과 같이 구함. Odds = Probability of success / probability of failure
e.g. 동전의 앞면과 뒷면의 경우 (앞면이 나오면 내기에서 이긴다고 합시다) - Odds ratio
: The ratio of odds from the two rows of a 2*2 table is called the odds ratio.
for example:
행: Offender
열: Victim
: row 1과 row 2의 odds ratio = a/b (odds ratio는 번데기 로 표현)
: 예제를 통해 구해보자면,
1행의 Odds = Probability of success / probability of failure
= (3150/3380) / (230/3380) = 13.7 이는 백인 가해자의 경우 흑인이 1명 죽을 때마다 13.7명의 백인 victims이 있으리라는 것을 의미. 동일한 것을 2행에 대해 하면 0.173 산출.
Odds for white offenders / Odds for black offenders = 79.2
* this odds ratio의 의미: 백인 가해자의 경우 그가 가해한 사람이 백인일 승산(odds)이, 흑인 가해자의 경우 흑인 가해자가 가해한 사람이 백인일 승산보다 79배 크다는 것이다.
- Odds ratio 의 속성 (p.236-237)
(1) 연구자가 종속변수를 뭘로 설정하든지 odds ratio의 값은 변하지 않는다. I.e. 종속, 독립변수의 순서가 뒤바뀌어도 odds ratio의 값이 변하지는 않는다.
(2) 는, 2*2테이블에서 대각선 셀들을 곱한 수 두 개의 비율과 똑같다! (이 때문에 odds ratio is also called the cross-product ratio.)
(3) odds ratio가 1보다 클수록, stronger association을 나타냄.
*기타 내용은 텍스트 참조
** 중요! Odds ratioRelative risk!!! (for relative risk, see p.186) Odds ratio는 승산의 비율이지, 확률의 비율이 아님!! (확률의 비율은 relative risk라 부른다.) - Summary Measures of Association for r*c tables
: 양적 변수들의 경우는 상관(correlation)이 좋은 summary measure.
: ordinal 변수의 경우, gamma는 비슷한 summary measure가 될 수 있음.
: 하지만 분할표의 행렬 수가 2를 넘어가는 nominal 변수의 경우, 하나의 summary measure는 oversimplification일 수 있다. (왜냐하면 경우의 수가 많기 때문에!) 따라서 여기서 명목변수에 대한 summary measure는 소개하지 않기로 한다. - Ordinal tests vs. Pearson chi-squared test
: 대체로 카이제곱보다 ordinal tests 방법이 쓸만함. 이는, 카이제곱은 서열변수의 순서를 무시하기 때문임. 그래서 gamma가 두 조건적 분포 간의 dependence를 찾아내는 반면 chi-squared는 그것을 못 찾아내는 경우가 존재할 수 있는 것.
: 그러나 ordinal tests의 약점도 있음. 현실에서는 매우 unusual한 케이스지만, 서열변수간의 관계가 one-trend가 아닌 경우(see table 8.19 in p.245) 감마는 relation을 못 찾아냄!
- Similar inference methods for other ordinal measures
: Kendall’s tau-b 의 경우도 위의 감마에서 했던 방법처럼 추론이 가능하다.
: 가능하다면 ordinal 변수의 카테고리를 촘촘이 설정하는 게 좋다 (예: 흙수저/금수저보다는 1분위~10분위 구분이 좋다). 왜냐하면, 카테고리가 많을수록 standard error가 줄어들기 때문. - Mixed ordinal-nominal contingency tables
2가지의 카테고리만 있는 명목변수와 서열변수의 관계 비교시, ordinal measures of association은 여전히 유효함. (예: 아래의 표) 하지만 명목변수의 카테고리가 3개 넘는다면 감마 등의 measure는 부적절함. (이 경우 ch.12에서 다뤄지는 ANOVA를 쓰는 게 좋음.)
- 카이제곱 독립성 검정에 사용되는 가설 세우기
두 변수는 통계적으로 독립적이다.
두 변수는 통계적으로 종속적이다.
- 카이제곱 계산
여기서 는 expected frequency를 뜻함. 는 observed frequency를 뜻함.
Expected frequency는 만약 두 범주형 변수가 독립적이라고 가정했을 때의 도수입니다.
구하는 방법은 조금 복잡해 보이지만 잠시만 생각한다면 쉽습니다. 위의 예에서 성차가 없다고 가정했을 때 여성 민주당원 수가 어떻게 될지 생각해 봅시다. 남녀 모두의 수는 2771명입니다. 이중 샘플에서 남녀 민주당 지지자는 959명입니다. 그렇다면 (959/2771)이 남녀 관계없이 민주당 지지자 비율이 될 것입니다. 여기서 여성 전체 수를 곱하면 (i.e. (959/2711)*1511) 성차가 따로 없다고 생각했을 때 여성 민주당원 수의 기댓값이 되겠죠. 이 과정을 모든 셀에 대해서 반복하면 됩니다.
8.3 Residuals: Detecting the Pattern of Contingency Table 잔차: 분할표의 패턴 찾기
8.4 Measuring Association in Contingency Tables 분할표에서 연관성 측정
|
Success (Head) |
Failure (Tail) |
Probability |
1/2 |
1/2 |
여기서 성공할 확률이 1/2이기 때문에, odds = (1/2) / (1/2) = 1.
- odds 의 속성
(1) 0 또는 양수이다.
(2) 값이 1보다 크면은, 성공이 실패보다 more likely 하다... [e.g. odds가 3이다? 아마 1번 실패하면 3번 성공할 것을 기대할 수 있겠죠.]
(3) 역수(reciprocal)를 씌운다면... e.g. odds가 1/3이다: 1번 성공하면, 3번 실패할 것이다.
(4) ; 즉 odds를 알면 probability를 구할 수 있다.
White
Black
total
White
3150
230
3380
Black
516
2984
3500
8.5 Association between Ordinal Variables* 서열 변수간의 연관성
- Concordant pair = C; Discordant pair = D
- 구하는 방법: 240-241쪽 참조. (어렵지 않음... 직관적임.)
그렇다면 summary measure인 감마는 어떻게 구하는가?!
감마의 특성: (1) 감마는 –1에서 +1 사이이다; (2) 감마의 부호는 관계가 정적(+)이냐 부적(-) 이냐를 알려줌; (3) 감마의 절대값이 클수록 관계는 더욱 센strong 것임.
*Gamma 외의, Kendall’s tau-b, tau-c 등의 계수가 있으나 대체로 비슷하기 때문에 텍스트에서는 다루지 않을 것임 (p.242-243.)
8.6 Inference for Ordinal Associations* 서열 변수의 연관성 추론
- Confidence intervals for Measures of Association:
: 표본 감마 의 표집분포는 정규분포에 근사하기 때문.
: se 구하는 식은 복잡하기 때문에 다루지 않음.
아래와 같은 가설 검정도 가능함. 여기서 이다.
or (one sided form)
|
안 행복 |
행복 |
매우 행복 |
여자 |
a |
b |
c |
남자 |
d |
e |
f |
'기타 공부' 카테고리의 다른 글
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
---|---|
[통계학] 분산분석(ANOVA; Analysis of Variance) (0) | 2018.02.08 |
[통계학] 두 집단 사이의 비교 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정 (0) | 2018.02.02 |
[통계학] 확률분포 (0) | 2018.02.02 |
[통계학] 두 집단 사이의 비교
Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.
Ch.7. Comparison of Two Groups (두 집단 사이의 비교)
목차
7.1 Preliminaries for comparing groups
7.2 Categorical Data: Comparing Two Proportions
7.3 Quantitative Data: Comparing Two Means
7.4 Comparing Means with Dependent Samples
7.5 Other Methods for Comparing Means*
7.6 Other Methods for Comparing Proportions*
7.7 Nonparametric Statistics for Comparing Groups*
7.1 Preliminaries for comparing groups
- dependent samples and independent samples
: 종단 연구longtitudinal study처럼, 한 샘플을 여러 차례 관찰하거나 처치할 경우 이것은 dependent sample임. 또한 sample들끼리 matching이 되는 경우도 dependent sample. (e.g. 아내와 남편의 집안일 시간 비교할 때, 아내-남편이 짝지어졌다면...)
: 반면 많은 사회과학 연구에서처럼 두 샘플의 대상이 다른 경우는 independent sample임.
: 왜 구분하는가? 왜냐하면 dependent냐 아니냐에 따라 표준오차 공식이 다르기 때문임.
- Standard error of difference b/w two estimates (in case of independent samples; for dependent samples, see section 7.4)
: estimated standard error:
: 여기서 알 수 있는 것: 두 추정치의 차의 표준오차는, 한 추정치의 표준오차보다 큼! - 차(difference)가 아닌, 2개의 표본 비율이나 표본 평균을 비교하는 다른 방법: ratio (p.186)
7.2 Categorical Data: Comparing Two Proportions
- 두 그룹 사이의 비교 실습! (표본 proportion에 관해... 예시는 기도하는 집단과 기도하지 않는 집단 사이 합병증 발병 빈도에 차이가 있는가? 하는 것)
- 역시 예전 챕터에서 한 것처럼 Confidence interval을 구성할 수도 있고 가설을 세워 significance test를 할 수도 있습니다. (고등학교 수준의 대수학을 무리없이 기억하는 분이라면 유도 과정이 어렵지 않을 거예요...!)
*용어 설명/ Contingency table(분할표): 각각의 열row은 설명(독립)변수의 카테고리, 각각의 행column은 응답(종속)변수의 카테고리를 나타냅니다! ch.8에서는 열 행이 두 개가 넘는 분류표 분석을 배웁니다. 그리고 분할표의 각 셀들은 조건부 확률을 나타낸다는 것을 기억해야겠습니다(고등학교 때 배웠던 것으로 압니다...)
7.3 Quantitative Data: Comparing Two Means
- 중요! independent samples 에서의 standard error 계산 (p.191)
: independent sample의 경우, df를 일반적인 방식으로 구하지 않음. “Welch-Satterthwaite approximation”이라는 것으로 구하는데 식이 복잡해서 텍스트에서는 다루지 않음. 대신 통계 소프트웨어는 해 줌.
: 단 인 경우 df는 (n1+n2-2) 즉 일반적인 식으로 구하면 됩니다. (즉 샘플끼리의 등분산이 가정되지 않는 샘플의 경우 Welch 어쩌구 하는 방식으로 df를 구해야 한다는 것입니다. 좀 더 자세한 내용은 뒤에서 더 다뤄짐.) - Significance test는 두 집단 사이를 비교할 때 유용합니다. (차이가 있는가, 없는가?) (p.193)
- 하지만 one sample inference의 경우처럼 신뢰구간을 제시해준다면은 더 informative 할 것입니다. (p.193)
7.4 Comparing Means with Dependent Samples
- Example 7.5 운전중 휴대폰을 사용하면 반응속도가 느려지는가?
: 이 경우 피험자의 휴대폰 미사용 상태와 사용 상태를 비교하는 것이므로 dependent sample이라고 할 수 있음. (각각의 데이터가 match가 되니까!) - 이러한 matched-pairs data의 경우 이다!
- dependent samples를 쓰는 것의 이득은 무엇일까? (p.196)
1) Potential bias가 통제된다! (예컨대 운전중 휴대폰 사용 예에서... 아마 젊은 피험자들은 나이 많은 피험자들보다 전반적으로 반응속도가 빠르겠죠..? 인구통계학적 특성들..)
2) independent samples에 비해, standard error가 줄어들 수 있다!
7.5 Other Methods for Comparing Means*
- Comparing means while assuming equal standard deviation
: 7.3에서, independent samples의 경우 특별한 방식으로 df를 구해야 한다고 봄. 이는 등분산(=equal standard deviation... 그게 그거)이 가정되지 않았기 때문. 만약 등분산이 가정된다면? df를 보통 쉬운 방식으로 구할 수 있음. 이 섹션에서는 등분산을 예상할 때 쓸 수 있는 방법을 다룸.
: 등분산이 가정된다면 이기 때문에 표준오차도 더 쉬운 식으로 구할 수 있음. (cf. the pooled estimation) - When , 등분산일 때의 통계치와 등분산이 아닐 때의 통계치는 똑같다. (p.199)
- 현실에서 통계 소프트웨어를 쓸 때에는 등분산 가정을 알아서 다 구해주기 때문에... 해석만 잘 하면 됩니다. (p.199-200).
- A model for means (p.200)
: y1과 y2가 똑같은 정규분포를 그릴 것이라는 것이 영가설인 모델을 구성하면, 등분산을 가정하고 통계 검정을 실시하면 됨. 단 y1과 y2의 분산은 다르나 가 같다는 영가설인 모델을 구성하면, 등분산이 가정되지 않은 통계 검정을 실시해야 함. 이런 걸 모델 구축이라 함. 모델 구축은 통계 분석하기 전에 하는 것이고 이것은 매우 중요함.
7.6 Other Methods for Comparing Proportions*
- McNemar Test
: Two dependent proportions를 비교할 때 쉬운 z-test가 있습니다. 이것을 맥니마 검정이라고 부릅니다. 이것은 샘플 수가 충분히 커야 사용할 수 있습니다. (when 가 20보다 클 때) Example 7.8 에 대해 McNemar Test를 하면 z=4.88 나옵니다(p.202). 이것은 p.201의 방식에서 구한 z값과 같습니다.
- Fisher’s exact test for comparing proportions
: 샘플 사이즈가 작으면 의 표집분포가 정규분포에 근사하지 않을 수 있음. 이 경우 Fisher’s exact test 사용. (p.203) 계산은 복잡해서 본 텍스트에서 다루지 않음.
7.7 Nonparametric Statistics for Comparing Groups*
- 모분포의 모양에 대해 가정하지 않는 통계적 방법이 있음. 이를 ‘비모수nonparametric 통계학’이라고 합니다. 7.7 섹션의 경우 비모수 통계학 방법을 소개합니다...
'기타 공부' 카테고리의 다른 글
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
---|---|
[통계학] 분산분석(ANOVA; Analysis of Variance) (0) | 2018.02.08 |
[통계학] 범주형 변수 간의 연관 분석 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정 (0) | 2018.02.02 |
[통계학] 확률분포 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정
Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.
Ch.6. Statistical Inference: Significance Tests (통계적 추론: 유의도 검정)
목차
6.1 The Five Parts of a Significance Test
6.2 Significance Test for a Mean
6.3 Significance Test for a Proportion
6.4 Decisions and Types of Errors in Tests
6.5 Limitations of Significance Tests
6.6 Calculating P(Type 2 Error)*
6.7 Small-sample Test for a Proportion – The Binomial Distribution*
6.1 The Five Parts of a Significance Test
- 유의도 검정이란, 통계치가 통계적으로 유의미한지 아닌지를 통해 가설을 검증하는 방법입니다. 가설은 모수에 대한 진술입니다. 따라서 가설 검증은 모수에 대한 추정치가 통계적으로 유의미한지 아닌지를 알아 보는 과정이라 할 것입니다.
- 유의도 검정은 다섯 단계로 이루어져 있습니다: 1) 가정assumptions; 2) 가설hypotheses; 3) 검정 통계치test statistic; 4) P값; 5) 결론.
- 1) 각각의 검정은 그것이 유효하기 위해 필요한 몇몇 가정을 가지고 있습니다. 가정은 다음 것들로 이뤄져 있습니다: 데이터의 유형; 랜덤화; 모분포; 표본 크기.
- 2) 모든 유의도 검정은 두 가지의 가설을 필요로 합니다: 영가설null hypothesis, 대립(대안)가설alternative hypothesis. 영가설은 보통 검증하고자 하는 가설과 반대되는, 즉 ‘XX의 효과가 없다’는 식으로 세워집니다. 이를테면 한국 남자가 여자보다 더 집안일 시간을 적게 들인다는 것을 검증한다고 해 봅시다. 영가설은 ‘한국 남자와 여자의 집안일 시간에는 차이가 없을 것이다’라는 식으로 세워질 것입니다. 대립가설은 물론 ‘차이가 있다(혹은 여자가 남자보다 더 오래 집안일할 것이다)’는 것이겠고요...
- 3) The test statistic summarizes how far that estimate falls from the parameter value in H0. 보통 영가설의 값과 추정치가 몇 표준오차만큼 떨어져 있느냐로 표현됩니다.
- 4) P값은 영가설이 옳다고 전제했을 때 검정 통계치가 영가설의 값에서 얼마나 떨어져 있는지를 나타내는 확률입니다. 즉 P값이 높을수록 그것은 영가설에 더욱 대립되는 것.
- 5) 결론은 보통 다음과 같이 표현. a) P값이 충분히 낮을 때에는 “영가설을 기각 reject”한다고 표현. e.g. “유의수준 .05 수준에서 결과값이 통계적으로 유의미했다.” b) 그러지 않을 때에는 “영가설을 기각할 수 없었다”라고 표현. (왜 이런 식으로 표현해야 하는가? p.158 “Never Accept H0” 참고)
6.2 Significance Test for a Mean
- 본 섹션의 내용은 6.1의 과정을 평균mean을 추정하는 것에 대해 적용한 것. 여기서 유의할 것은, P값을 구할 때 우리는 영가설이 참이라는 것을 전제로 한 표집분포를 구성한다는 것.
- 거식증 환자 소녀의 몸무게 변화에 대한 사례(eample 6.4): 여기서 영가설은 처치 후 몸무게 변화의 평균 가 0이라는 것. =0, df=28, se=1.357임을 전제하고 t분포를 그려보자. 관측된 통계값(검정 통계치)의 평균값은 3.007임. 이것의 t값은 2.22. 표집분포에서 이 t값의 확률값은 .0173임. 이것은 영가설을 기각하기에 충분함. 따라서 거식증 소녀에게 처치했을 때 몸무게 변화가 있다고 말할 수 있음(=대립가설 채택).
- 참고: 교재 example 6.4에서는 one-sided test (단측 검정)을 했음. 하지만, two-sided test (양측 검정)을 할 수 있음. (참고: p.151) 양측검정과 단측검정 중 무엇을 선택할지에 대해서는 p.153 참고. 보통의 연구에서는 양측검정을 함. 양측을 할지 단측을 할지는 연구자의 선택!
- 왜 거식증 소녀 사례에서 양측검정을 하는지 단측검정을 하는지에 따라 significance 값이 변할까요? 잘 생각해 봅시다... (힌트: 절댓값absoulte value)
- -level: 유의수준significance level 이라고도 불림. 보통 유의수준은 .05나 .01 수준에서 결정된다. 통계치의 p값이 유의수준보다 낮을 때 우리는 영가설을 기각한다! (만약 위 거식증 소녀 사례에서, 연구자가 유의수준을 .01로 잡는다면 영가설을 기각할 수 없겠죠?)
- Robustness for Violations of Normality Assumptions (p.154): 양측검정 t-test의 경우 모분포가 정규분포가 아니더라도 robust하다고 할 수 있습니다!
6.3 Significance Test for a Proportion
- 발제에서 Proportion에 관한 유의도 검정 과정은 생략! (mean에 관한 것의 과정과 같음)
- p. 158 Never “Accept H0”: 왜 영가설을 채택한다는 결론을 내리는 것이 말이 안 되는지(=왜 우리가 “영가설을 기각할 수 없다”는 식으로밖에 말할 수 없는지) 설명
- p. 158 Effect of Sample Size on P-values: The larger the sample size, the more certain we can be that sample deviations from H0 are indicative of true population deviations! (즉 아주 쉽게 풀어 말하면, 표본 크기를 크게 할 때 더욱 정확한 결정을 내릴 수 있다는 것... 편차가 줄어들고 신뢰구간이 줄어드니까!!!)
6.4 Decisions and Types of Errors in Tests
- 1종 오류Type 1 Error와 2종 오류Type 2 Error란 무엇인가?
|
H0을 기각하기로 결정 |
H0 기각하지 않기로 결정 |
H0가 참이다 |
1종 오류 |
Correct decision |
H0가 거짓이다 |
Correct decision |
2종 오류 |
- 여기서 1종 오류의 확률은 유의수준 값(값)과 같음. (생각해 보면 당연함...) 따라서 유의수준 값을 올린다면 (e.g. from .05 to .01) 1종 오류의 확률 역시 줄어들겠죠.
- 다른 중요한 정리는, 1종 오류 확률이 줄어들수록 2종 오류 확률은 올라간다는 것(p.161).
- Equivalence b/w confidence intervals and test decisions (p.161)
: 매우 중요한 내용. “특정 신뢰수준에서 영가설을 기각한다는 것은, 똑같은 오차확률범위에서의 신뢰구간이 영가설의 결론을 포함하지 않는다는 것과 같다.”
: 그림을 보면 더 이해가 쉬움...
: Example 6.2의 경우. 영가설: 흑인 미국인의 평균 정치 성향이 4.0(=moderate)일 것이다. 대립가설: 흑인 미국인의 평균 정치 성향이 4.0이 아닐 것이다. 검정 결과, 알파값 .05 수준에서 영가설 기각 불가했음. 신뢰구간의 term으로 다시 표현하면, 95% 신뢰구간에서 값은 3.9에서 4.3까지임. (3.9, 4.3)은 영가설의 결론값(평균값) 4.0을 포함함. 신뢰구간을 보아도, .05 신뢰수준에서 영가설 기각할 수 없는 것임.(111쪽의 그림과 162쪽의 그림을 비교해 생각해보면 당연한 것...)
- Making Decisions vs. Reporting the P-value (p.162)
: 요약을 하면, 연구 결론 내릴 때 언제나 p값을 제시하는 게 좋다는 것임. (독자들이 판단할 수 있도록!!)
6.5 Limitations of Significance Tests
- 유의도 검정은 그렇게 practical importance가 있지 않음!
- 왜냐하면 이론적으로 검정통계치의 평균값과 영가설의 평균값이 0.00001밖에 얼마 차이가 안 나는데 이것의 P값이 역시 0.000001이어서 유의미할 수 있기 때문. (see example 6.7)
- 따라서 significance tests are less useful than confidence intervals 라고 말할 수 있다. (단순히 영가설을 기각한다고 말하는 것보다는 신뢰구간을 제시해 주는 게 좋겠죠)
- 그렇다면 유의도 검정은 언제 유용하느냐? 바로 여러 그룹들을 비교할 때. 이것은 챕터7에서 살펴볼 것임.
'기타 공부' 카테고리의 다른 글
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
---|---|
[통계학] 분산분석(ANOVA; Analysis of Variance) (0) | 2018.02.08 |
[통계학] 범주형 변수 간의 연관 분석 (0) | 2018.02.02 |
[통계학] 두 집단 사이의 비교 (0) | 2018.02.02 |
[통계학] 확률분포 (0) | 2018.02.02 |
[통계학] 확률분포
Agresti & Finlay, Statistical Methods for the Social Sciences, 4th Edition, Pearson.
작성한 수식이 깨져서 아래 파일 참조
Ch.4. Probability Distribution
목차
4.1 introduction to probability 4.2 probability distributions for discrete and continuous variables 4.3 the normal probability distribution 4.4 sampling distributions describe how statistics vary 4.5 sampling distributions of sample means 4.6 review: population, sample data, and sampling distributions
4.1에서는 확률에 대한 간단한 소개를 합니다. 4.2에서는 확률분포와 관련한 두 변수, 평균과 표준편차(분산의 제곱근)를 소개합니다. 4.3에서는 확률의 정규분포를 다룹니다. 4.4에서는 표집분포(sampling distribution)를 다룹니다. 표집분포는 우리가 모집단을 모를 때 표본의 통계치를 추정할 때 아주 중요하게 쓰입니다. 표집분포의 종류는 다양합니다: 표본 평균의 표집분포, 표본 표준편차의 표집분포 등. 개중에 제일 중요한 것은 표본 평균의 표집분포입니다. 4.5는 표본의 평균(sample means)의 표집분포를 다룹니다. 여기서 특히 기억해야 할 정리가 중심극한정리(Central Limit Theorem; CLT)라 하겠습니다.
다음은 각 절의 요약입니다.
4.1 Introduction to probability
- 확률을 long-run relative frequency로 이해하기
: “With a random sample or randomized experiment, the probability an observation has a particular outcome is the proportion of times that outcome would occur in a very long sequence of observations.
: e.g. 오늘 비 올 확률이 70%입니다: 오늘 같은 날을 장기간 관찰한다면, 개중 70% 강우.
: 장기간 관찰이 불가능할 때에는 주관적 정보(subjective information)에 의존할 수밖에 없음. 이러한 분야를 다루는 통계학이 베이지언 통계학Bayesian statistics이나 본서는 다루지 않음. - 기본적 통계 법칙 (p.74)
: 모두 중고등학교 수학 시간에 배우는 것들.
: 참고. P(B given A) [probability of B given A] = P(B|A). 즉 조건부 확률입니다.
4.2 Probability distributions for discrete and continuous variables
- 확률 분포는 이산(discrete)변수에도, 연속변수에도 적용될 수 있습니다.
- 확률 분포를 묘사하는 매개 변수들에는 두 가지가 있습니다.
: a) 평균(=기댓값). 이산변수에 y 대해서 이는, 로 계산됩니다 (p.78).
: b) 표준편차(). 이산변수 y에 대해서 이는, 로 계산됩니다.
여기서 알 수 있는 것은 표준편차가, 의 기댓값의 제곱근이라는 것입니다.
4.3 The normal probability distribution
- 정규분포(=정상분포; normal distribution)는 매우 중요한 분포입니다.
: 현실의 많은 데이터는 정규분포를 따릅니다. 하지만, 정규분포를 따르지 않는 데이터에 대해서도 우리는 정규분포를 이용할 수 있습니다. (중심극한정리 참고) - 정규분포의 특징: 대칭적; 鐘 모양; 평균과 표준편차에 의해 모양 결정.
- 지난 3장의 Empirical Rule에서도 보았듯이 정규분포에서 평균으로부터 2표준편차 떨어진 부분의 면적(=확률)은 약 0.95입니다.
: p.80-81의 내용은 z값을 활용해 empirical rule의 내용을 보여주고 있습니다. - z값을 통해, 정규분포 그래프의 확률을 쉽게 알 수 있습니다. (p.80)
: z값은 로 계산됩니다. (p.83)
: 그런데 중요한 것은 책의 표는 정규분포의 오른쪽 부분(right-tail)에 한한다는 것입니다. 물론 정규분포는 평균에 대해 대칭이기 때문에, 이를 활용하면 왼쪽 부분의 확률도 계산 가능합니다. - 모든 종 모양 분포가 정규분포는 아닙니다. (앞서 살핀 empirical rule은 꼭 정규분포에 한해서만이 아닌, 종 모양을 따르는 분포에 적용됩니다.)
- z값을 통한 추론 실습 (예제 4.4, 4.5)
(1) 정규분포를 따르는 특정 확률분포에서 y값을 알 때 우리는 그것의 확률을 계산할 수 있습니다. (y값을 z값으로 변환하면 된다.)
(2) 정규분포를 따르는 특정 확률분포에서 우리가 확률 값을 알 때, 우리는 그것의 값을 계산할 수 있습니다.
- 평균이 0이고 표준편차가 1인 정규분포를 ‘표준정규분포 the standard normal distribution’ 이라고 합니다.
4.4 Sampling distributions describe how statistics vary
- 한 통계치의 표집분포(a sampling distribution)란, 그 통계치가 가질 수 있는 가능한 값들의 확률을 보여주는 확률분포입니다. (p.87)
: 각각의 표본 통계치는 표집분포를 갖고 있습니다. 그러니까 표본의 평균에 대한 표집분포가 있을 수 있고, 표본의 비율에 대한 표집분포도 있을 수 있고, 표본의 중간값에 대한 표집분포도 있을 수 있습니다. - Figure 4.9는 무엇을 의미할까요? 캘리포니아의 선거권자 N명이 민주당이나 공화당에 각각 절반의 확률로 투표한다고 가정합시다. 즉 아놀드 슈워제네거는 N/2를 득표할 것입니다. 여기서 우리가 2705(=n)명의 샘플을 여론조사하는 과정을 컴퓨터로 백만 번 시행한다고 해 봅시다. 그렇다면 우리는 2705을 대상으로 한 표본의 표본 비율(sample proportion) 통계치를 백만 개 얻은 셈입니다. 이 백만 개의 통계치에 대한 확률 상대도수분포표가 바로 figure 4.9이며, 이는 바로 sample proportion의 sampling distribution 이라 할 수 있겠습니다.
4.5 Sample distributions of sample means
- 표본평균 는 매우 많이 쓰이기 때문에 따로 특기할 필요가 있습니다.
: 우리가 만약 표본평균 에 대한 표집분포를 안다면? 모평균을 모른다 해도 그것이 모평균에 근접할 확률이 얼마인지 계산할 수 있을 것입니다. - 기본 개념
: sample mean: ; cf. 모평균은 로 표기
: (모집단의) standard deviation: ; cf. 표본의 표준편차는 로 표기
: 표준오차 standard error: = - sample mean은 변수입니다. 그러니까 각 샘플에 따라 sample mean은 변할 수밖에 없습니다. 한국 남자의 평균 키가 170cm라고 합시다. 한국 남자 1000명을 뽑아 평균내볼 때 표본의 평균 는 모집단 평균 170cm과 조금조금씩 다를 수밖에 없을 것입니다.
- 표준오차는 이 각각의 샘플마다 얼마나 변하는지를 알려 주는 값입니다. 표준오차는 표본표준편차를 n의 제곱근으로 나눈 값으로 계산됩니다.
: 앞서 든 한국 남자의 평균 키 사례에서 우리가 1000명 말고 100000명을 n 사이즈로 뽑는다면 표준오차는 줄어들 것입니다. - 표집분포의 평균은 모평균과 같습니다.
- 표준오차의 성격은 무엇일까요? 바로 표본의 사이즈 n이 커지면 커질수록 표준오차는 줄어든다는 것입니다. (즉, 표집오차 sampling error는 n이 커질수록 줄어듭니다.)
- 중심극한정리는 다음과 같은 내용입니다.
: n(표본 사이즈)가 충분히 클 때 표본 평균의 표집 분포는 정규분포 모양에 매우 가까워집니다. 모분포의 모양과 관련 없이요! (이것이 바로 중심극한정리가 중요한 이유입니다.)
: 표본 사이즈가 얼마나 충분히 커야 할까요? 대충 30 이상이면 괜찮다 합니다.
- p.94의 Example 4.9는 중심극한정리의 활용을 보여줍니다. 캘리포니아 이주노동자들의 수입은 당연히 정규분포를 따르지 않을 것입니다. (대부분 저임금을 받을 것이며, 고임금 노동자는 손에 꼽을 것입니다. 즉 right-skewed입니다.) 하지만 중심극한정리에 의해, 우리는 정규분포의 bell shaped curve와는 다른, skewed curve에 대해서도 정규분포의 원리를 활용할 수 있는 것입니다.
: 물론 이 예시는 비현실적입니다. 보통 통계조사를 할 때에는 모집단의 평균과 모집단의 표준편차를 알 수 없기 때문입니다. (그러나 모집단의 표준편차는 로 대체할 수 있습니다.)
다음 5, 6 챕터는 중심극한정리를 활용한 통계적 추론 방식을 소개합니다.
'기타 공부' 카테고리의 다른 글
[R] 변수 할당 및 데이터 유형 (0) | 2018.05.27 |
---|---|
[통계학] 분산분석(ANOVA; Analysis of Variance) (0) | 2018.02.08 |
[통계학] 범주형 변수 간의 연관 분석 (0) | 2018.02.02 |
[통계학] 두 집단 사이의 비교 (0) | 2018.02.02 |
[통계학] 통계적 추론: 유의도 검정 (0) | 2018.02.02 |
고프먼, 『자아 연출의 사회학』
어빙 고프먼, 『자아 연출의 사회학 (원제: 일상 생활에서의 자아 연출)』 진수미 옮김, 현암사.
제3장 영역과 영역 행동, 제4장 모순적 역할
(단상)
1. "대규모 집회장에서 이루어지는 정치 연설[처럼]... 흔히 공연에는 공연자와 관객이 주의를 기울이는 시각적 초점이 하나뿐이다. 그러나 제각기 말로 상호작용을 하는 여러 무리로 구성된 공연도 있다."(139)
대규모 정치 집회장에서도 칵테일 파티처럼 여러 하위 집단이 존재함을 관찰할 수 있다. 집회 규모가 일정 수준을 넘어서면 사람들은 연단 위에 주의를 잘 기울이지 않는다. 대규모 집회에서는 주변에 오랜만에 만난 사람들이나 같이 집회에 온 친구 혹은 가족들끼리 잡담을 하거나 안부를 교환하는 모습을 볼 수 있다. 아마도 매우 큰 규모의 집회에서는 열성적인 참여자들이나 '바람잡이들' 정도를 제외하고는 공연자들이 꼭 연단 위의 연설자에게 집중하는 모습을 연출할 필요가 없기 때문이겠다. 집회장에서 상호작용이 다초점으로 존재함을 고려하면 더욱 의미있는 분석이 가능할 것 같다.
2. "무대 위에서 하는 개인의 공연은, 영역을 지키고 특정 기준을 실행하는 겉모습을 보여주려는 노력으로 볼 수 있다."(140)
개인은 상황 정의 뿐만이 아닌 공연의 영역을 지키고자 한다는 고프먼의 새로운 분석 틀은, 관객들이 상황 정의를 지킨다고 언급한 제1장에서의 분석 틀과 엄밀히 구분되는가? 개인은 상황 정의의 노선을 정하는 데에 무대의 영역을 고려하기 때문에, 공연의 참여자들이 개인의 앞무대만이 아닌 무대의 다양한 영역들을 지키는 것이라고도 해석할 수 있는 것이 아닐까?
3. "[뒷무대는] 체면을 지키려고 쓰고 있던 가면을 벗고 옷차림을 허물며 '연기를 멈춘' 순간이다. ... 침실을 집 안의 활동 공간과 분리 배치하는 관행도 그 때문이다. 또한 침실은 또 성 행위가 이루어지는 곳이고, 성 행위는 행위자를 곧장 또 다른 상호작용에 들어갈 수 없게 만드는 상호작용의 형태이기 때문에, 분리 배치된 침실이 더 쓸모가 있다."(155-156).
사람들은 물리적 공간을 재배치하며 앞무대와 뒷무대를 배치한다. 물론 앞무대와 뒷무대를 구분짓는 기준은 사회의 규약 내지는 상징이다(Symbolic Interactionism의 관점). 하지만 공간은 그 자체로 물리적이고 여러 사회적 요인들의 영향을 받는다. 이를테면, 집값이 비싼 대도시 원룸에 사는 사람들은 침실의 공간을 따로 배치하기 어렵다. 침실이 있는 공간에서의 성관계와 없는 공간에서의 성관계는 사람들에게 다른 상징적 의미를 가지고 다가올 것이다. 이러한 물리적, 사회적 제약에서 개인들이 공간에 부여하는 상징적 내용들이 어떻게 변화하는지 시공간적으로 비교하는 것도 흥미로울 것이라 생각한다.
고프먼의 분석은 대체로 정해져 있는 사회의 무대들을 기술하고 분류해보는 것이기 때문에, 사회의 무대들이 어떤 이유나 어떤 과정을 거쳐 변화하게 되는지 알 수 없다는 아쉬움이 남는다.
4. "물론 정기 공연을 위해 마련된 무대도 공연 전후로 무대 뒤로서 기능하는 때가 있다. ... 그렇다면 무대 위와 무대 뒤라고 말할 때, 우리는 특정한 공연을 준거로 삼는 것이고..."(163)
그런 경우도 있고 아닌 경우도 있을 것이다. 이를테면 고프먼 역시 언급한 성당의 경우 행위자들은 그 장소 자체가 가지는 상징의 힘 때문에 성당을 뒷무대 혹은 무대 뒤로 활용하기 어려울 것이다. 어떤 무대가 공연 전후에 무대 뒤로 활용될 수 있다면 그 공간에 부여된 상징적 의미가 그다지 견고하지 않은 것이라고 볼 수도 있겠다.
(질문)
1. p.207 마지막 문단 ("비슷한 예로~"): 무슨 뜻인가? "준거점을 한 공연에서 다른 공연으로 옮겨야 충분히 탐구할 수 있는 문제"라 함은 무엇인가?
2. p.209-210에서 착안하여... 중고등학생들에게 학교 내외부에서의 '건전한' 처신을 강요하기 위해 교복을 입히는 경우: 복장 규제를 통해 학생으로 하여금 연극에서 (비교적 조직적 성격이 강한) 학생 동료 집단이라는 배역을 맡으라는 것을 요구하는 것이라고 볼 수 있지 않을까?
덧붙여 품행에 강한 책임감을 느끼는 "동료 집단"(209)은 보통 외부적 표식 등으로 쉽게 식별 가능하고 categorizing 가능한 소수자들이 주로 되지 않을까? e.g. 소수 인종이나 민족의 범죄가 대중적 공분을 불러일으키는 경우; 또는 많은 부분에서 여성의 경우.
3. 서로 책임감을 강하게 느끼는 동료 집단을 팀으로 간주할 때 (=팀 개념을 거시적으로 확장할 때) 문제점이란? 국가적 이미지 때문에 해외 여행 중 자신의 처신을 조심하는 한국인을 두고 연기를 한다고 말할 수 있을까? 다른 경우 거시적으로 확장된 팀 개념의 문제점은 무엇일까?
제5장 배역에서 벗어난 의사소통, 제6장 인상 관리의 기술, 제7장 결론
1. “공연은 팀 성원들이 멀찌감치 뒤로 물러나 다른 현실이 가능한지 시험해보고 또 다른 종류의 공연을 상상하거나 연출해보는 것이기도 하다.”(259)
『자아 연출의 사회학』을 읽는 중 제5장의 “관계 재구성” 절이 특히 흥미로웠는데, 왜냐하면 책의 내용 중 다른 대부분이 상호작용[연극]에서 지켜져야 할 규범이나 각자 팀의 상황 노선을 벗어나지 않기 위한 전략과 같은 정태적인 것들을 논했다면 이 부분은 상호작용에서의 팀들이 노선을 변경하는 데에서 관찰되는 비교적 이행적인 것들을 분석했기 때문이다. 관계 재구성의 방법 중 하나는 “노출성 의사소통”인 “속내 떠보기”나 “이중화법double talk” 등이 있다. 왜 관계를 재구성하는 데에 사용되는 기법들은 대부분 무대 뒤에서 이뤄지거나 암시적 신호로 제시되는 등 은밀한 형태를 띨까? 참여하는 팀들이 채택한 노선이 무너질 때의 어색함 등의 불이익이 상당히 크기 때문인가, 혹은 개인이 견지하는 노선 혹은 ‘가면’은 그 자체로 지켜져야 하는 신성한 것이기 때문인가? 어떤 식으로 해석하든, 일상생활에서의 상호작용은 쉽게 변하지 않는 보수적인 본성을 갖고 있다고 생각할 수 있을 것 같다.
(+) 공연의 판을 뒤집기 위한, 즉 “사건incidents”을 만들기 위한 연극 참여자들의 행위는 제6장의 첫 부분(263-67)에서도 다뤄진다. e.g. ‘불의의 기습’, ‘결판내기’, ‘소동’. 또한 연극적 관행이 변해온 몇몇 사례들에 대해서는 307-310쪽도 참조.
2. “연극적 훈련의 초점은 아마도 표정과 목소리의 조절에 있을 것이다.”(273)
근대 사회에서 몸의 훈육(discipline)이 제도적 차원으로 이뤄지는 대표적인 장소는 학교, 군대, 감옥이다. 이러한 장소에서 훈육을 거침으로써 개인들은 시계로 측정된 일정한 시간 동안 비교적 일정하게 몸짓을 조절할 수 있는 능력을 기를 수 있게 된다. 유년기 아동들을 엄격한 연극이 이루어지는 사회적 상호작용의 장(예컨대, 장례식장)에 데려 가지 않는 부모들의 결정은 어찌 보면 당연한 것처럼 보인다. 여기서 다음과 같은 연구 과제가 제기될 수 있다. 학교, 군대, 감옥 같은 근대적 제도가 형성되지 않은 사회에서의 상호작용의 예법은 엄격하지 않은 경향을 띠는가? 바꿔 말해 그러한 사회에서 연극적 훈련은 그다지 중요하지 않거나 서구 근대 사회와 상당히 다른 방식을 띠는가?
3. “나는 공연자의 방어적 인상 관리 기법이, 관객과 외부인이 공연자를 도와주려고 발휘하는 요령 및 보호 성향과 짝을 이룬다는 점을 강조하고 싶다.”(286)
공연자가 연극의 앞뒷 무대를 분리하고 상황 노선을 유지하고 성공적인 연출을 행하기 위해서는 관객이나 상대 팀, 혹은 외부인의 요령에 상당히 의존해야 한다. 상호작용이라는 의례(ritual)는 연출자와 관객 모두가 받들어야(hold) 하는 것이기 때문이겠다. 극적 비유를 적용시켜 보아도, 관객들의 일정 수준의 호응과 협조 없이는 극이 유지될 수 없을 것이라는 점은 자명할 것이다. 그렇기 때문에 고프먼은 “관객이 되면 평소에 잘 드러나지 않는 근본적인 민주주의를 발견할 수 있다”고 지적한다(293). 우리는 언제나 사회의 무대에서 관객과 공연자를 오가기 때문에, 공연자의 입장에서 관객의 입장을 추정하는 식으로 “벌어질 일들”을 “우려”하고, “자신과 관객에 대한 양가감정”을 가진다. 고프먼은 지적한다. “이 모든 문제는 인간이 직면하는 상황의 연극적 구성 요소들”이라고(296). 탁월한 문장이다.
'사회학' 카테고리의 다른 글
[이론] Social Theory 13장 파슨스주의의 부활과 근대화 이론 (0) | 2018.02.04 |
---|---|
엘리트 노동 시장에서 계급 시그널의 젠더화된 효과 (0) | 2018.02.02 |
[이론] Social Theory 11장 앤서니 기든스의 구조화 이론 (0) | 2018.01.29 |
퍼트넘, 『사회적 자본과 민주주의 Making Democracy Work』 요약 (0) | 2018.01.23 |
[이론] Social Theory 10장 하버마스의 의사소통행위이론 (0) | 2018.01.20 |