728x90
교차분석(카이제곱검정)이란?
2개 이상의 범주형 변수 간의 관계를 분석할 때 사용
각 범주에 따른 종속변수의 분포를 분석할 때 사용
독립변수 X : 범주형 변수
종속변수 y : 범주형 변수
독립성 검정
두 범주형 변수가 서로 독립적인지(연관이 없는지) 검정
1. 가설수립
귀무가설 : 두 변수는 서로 독립적이다(연관이 없다).
대립가설 : 두 변수는 서로 독립적이지 않다(연관이 있다).
2. 유의수준 설정 (0.05)
3. 검정통계량 값 및 유의확률(p-value) 계산
1. 데이터가 주어진 경우
from scipy.stats import chi2_contingency
table = pd.crosstab(X1, X2)
chi2_contingency(table)
2. 데이터가 주어지지 않은 경우
2-1. 검정통계량 $\chi^2$ 계산
$$\chi^2 = \sum \frac{(O - E)^2}{E}$$
$$O : 관측 빈도$$
$$E : 기대 빈도$$
$$E = \frac{\text{행의 합} \times \text{열의 합}}{\text{전체 합}}$$
$$df = (행의 수-1) * (열의 수-1)$$
2-2. p-value 계산
p_value = 1 - stats.chi2.cdf(chi2_stat, df) # ‘두 변수는 서로 독립적이지 않다 (관계가 있다)’라는 대립가설을 검정 (양측검정)
=> p-value가 유의수준(0.05)보다 작으면 ‘두 변수는 서로 독립적이지 않다(연관이 있다)’라는 대립가설 채택
=> p-value가 유의수준(0.05)보다 크면 ‘두 변수는 서로 독립적이다(연관이 없다)’라는 귀무가설 채택
728x90
'ADP > 통계분석' 카테고리의 다른 글
[통계분석] Z-검정 (두 비율의 검정) (0) | 2024.10.10 |
---|---|
[통계분석] Z-검정 (모집단의 평균 검정) (0) | 2024.10.10 |
[통계분석] 교차분석(카이제곱검정) - 적합성 검정 (0) | 2024.10.10 |
[통계분석] 분산분석(ANOVA) - 이원배치 분산분석 (1) | 2024.10.10 |
[통계분석] 분산분석(ANOVA) - 일원배치 분산분석 (1) | 2024.10.10 |