ADP/통계분석

[통계분석] 교차분석(카이제곱검정) - 독립성 검정

rtw0202 2024. 10. 10. 21:03
728x90

교차분석(카이제곱검정)이란?

2개 이상의 범주형 변수 간의 관계를 분석할 때 사용

각 범주에 따른 종속변수의 분포를 분석할 때 사용

독립변수 X : 범주형 변수

종속변수 y : 범주형 변수

 

독립성 검정

두 범주형 변수가 서로 독립적인지(연관이 없는지) 검정

 

1. 가설수립

귀무가설 : 두 변수는 서로 독립적이다(연관이 없다).

대립가설 : 두 변수는 서로 독립적이지 않다(연관이 있다).

 

2. 유의수준 설정 (0.05)

 

3. 검정통계량 값 및 유의확률(p-value) 계산

1. 데이터가 주어진 경우

from scipy.stats import chi2_contingency

table = pd.crosstab(X1, X2)

chi2_contingency(table)

 

2. 데이터가 주어지지 않은 경우

2-1. 검정통계량 $\chi^2$ 계산

$$\chi^2 = \sum \frac{(O - E)^2}{E}$$

$$O : 관측 빈도$$
$$E : 기대 빈도$$
$$E = \frac{\text{행의 합} \times \text{열의 합}}{\text{전체 합}}$$

$$df = (행의 수-1) * (열의 수-1)$$

2-2. p-value 계산

p_value = 1 - stats.chi2.cdf(chi2_stat, df) # ‘두 변수는 서로 독립적이지 않다 (관계가 있다)’라는 대립가설을 검정 (양측검정)


=> p-value가 유의수준(0.05)보다 작으면 ‘두 변수는 서로 독립적이지 않다(연관이 있다)’라는 대립가설 채택

=> p-value가 유의수준(0.05)보다 크면두 변수는 서로 독립적이다(연관이 없다)’라는 귀무가설 채택

728x90