728x90

전체 글 35

[통계분석] 신뢰구간 - 모비율의 신뢰구간

모비율의 신뢰구간주어진 표본에서 관측된 비율을 기반으로 모집단 비율에 대한 추정치를 제공 1. 표본 비율 계산표본에서 성공의 수와 전체 표본 크기를 이용하여 표본 비율을 계산$$\hat{p} = \frac{x}{n}$$$$x: 성공의 수$$$$n: 표본 크기$$ 2. 표준오차 계산$$\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율$$ 3. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.norm.ppf(1 - alpha / 2) $$\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율 (성공한 경..

ADP/통계분석 2024.10.10

[통계분석] 신뢰구간 - 모분산의 신뢰구간

모분산의 신뢰구간모집단의 분산이 포함될 가능성이 높은 범위를 추정하는 통계적 방법 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 카이제곱 분포에서 임계값을 찾음chi2_lower = stats.chi2.ppf(1 - alpha/2, n - 1) # 하한chi2_upper = stats.chi2.ppf(alpha/2, n - 1) # 상한$$\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right)$$$$s^2: 표본 분산$$$$n: 표본 크기$$$$(\chi^2_{1-\alpha/2, n-1}: 1-\alpha/2에 해당하는 카이제곱 분포의 값 (하..

ADP/통계분석 2024.10.10

[통계분석] 신뢰구간 - 모평균의 신뢰구간

모평균의 신뢰구간모집단의 평균이 포함될 가능성이 높은 범위를 추정하는 통계적 방법 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 표본 평균 계산신뢰구간의 중심값이 됨 3. 모집단 표준편차 또는 표본 표준편차 결정1. 모집단의 표준편차를 알고 있는 경우 $\sigma$를 사용2. 모집단의 표준편차를 모르는 경우 $s$(표본의 표준편차)를 사용 4. 표준오차 결정1. 모집단 표준편차 $\sigma$가 주어질 때$$SE = \frac{\sigma}{\sqrt{n}}$$$$\sigma : 모표준편차$$$$n : 표본 크기$$2. 표본 표준편차 $s$가 주어질 때 (모집단 표준편차 $\sigma$가 주어지지 않을 때)$$SE = \frac{s}{\sqrt{n}}$$$$s : 표본 표준편차$$$$n : 표본..

ADP/통계분석 2024.10.10

[통계분석] 모집단의 분산 검정

모집단의 분산 검정주어진 모집단의 분산이 기준값과 같은지 아닌지를 검정할 때 사용ex) 제품 생산 과정에서 품질의 변동성(분산)이 기준치 이내인지 확인 1. 가설수립귀무가설 : 모집단의 분산은 **이다.대립가설 : 모집단의 분산은 **이 아니다. 2. 유의수준 설정 (0.05) 3. 검정통계량 값 및 유의확률(p-value) 계산1-1. 검정통계량 $z$ 계산$$\chi^2 = \frac{(n - 1) \cdot s^2}{\sigma^2}$$$$n :표본 크기$$$$s^2 : 표본 분산$$$$\sigma : 귀무가설 하의 모집단 분산$$1-2. p-value 계산p_value = 1 - stats.chi2.cdf(chi2_stat, df=n-1)=> p-value가 유의수준(0.05)보다 작으면 ‘모..

ADP/통계분석 2024.10.10

[통계분석] Z-검정 (두 비율의 검정)

Z-검정이란?모집단의 평균 또는 비율에 대한 가설을 검정할 때 사용모집단의 표준편차를 알고 있거나, 표본 크기가 충분히 클 때(일반적으로 30 이상) 사용할 수 있는 검정 방법 두 비율의 검정두 독립된 집단의 비율 차이가 통계적으로 유의미한지 검정하는 방법 1. 가설수립귀무가설 : 두 집단 간 비율의 차이는 없다.대립가설 : 두 집단 간 비율의 차이는 있다. 2. 유의수준 설정 (0.05) 3. 검정통계량 값 및 유의확률(p-value) 계산1-1. 검정통계량 $z$ 계산$$z = \frac{\hat{p_1} - \hat{p_2}}{\sqrt{p(1 - p) \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}}$$$$\hat{p_1}: 첫 번째 표본의 비율$$$$\hat{..

ADP/통계분석 2024.10.10

[통계분석] Z-검정 (모집단의 평균 검정)

Z-검정이란?모집단의 평균 또는 비율에 대한 가설을 검정할 때 사용모집단의 표준편차를 알고 있거나, 표본 크기가 충분히 클 때(일반적으로 30 이상) 사용할 수 있는 검정 방법 모집단의 평균 검정 1. 가설수립귀무가설 : 모집단의 평균은 **이다.대립가설 : 모집단의 평균은 **이 아니다.  2. 유의수준 설정 (0.05) 3. 검정통계량 값 및 유의확률(p-value) 계산 1-1. 검정통계량 $z$ 계산$$z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}$$$$\bar{x}: 표본 평균$$$$\mu : 귀무가설 하의 모평균$$$$\sigma: 모집단 표준편차$$$$n : 표본 크기$$ 1-2. p-value 계산p_value = 2 * (1 - stats.no..

ADP/통계분석 2024.10.10

[통계분석] 교차분석(카이제곱검정) - 독립성 검정

교차분석(카이제곱검정)이란?2개 이상의 범주형 변수 간의 관계를 분석할 때 사용각 범주에 따른 종속변수의 분포를 분석할 때 사용독립변수 X : 범주형 변수종속변수 y : 범주형 변수 독립성 검정두 범주형 변수가 서로 독립적인지(연관이 없는지) 검정 1. 가설수립귀무가설 : 두 변수는 서로 독립적이다(연관이 없다).대립가설 : 두 변수는 서로 독립적이지 않다(연관이 있다). 2. 유의수준 설정 (0.05) 3. 검정통계량 값 및 유의확률(p-value) 계산1. 데이터가 주어진 경우from scipy.stats import chi2_contingencytable = pd.crosstab(X1, X2)chi2_contingency(table) 2. 데이터가 주어지지 않은 경우2-1. 검정통계량 $\chi^2..

ADP/통계분석 2024.10.10

[통계분석] 교차분석(카이제곱검정) - 적합성 검정

교차분석(카이제곱검정)이란?2개 이상의 범주형 변수 간의 관계를 분석할 때 사용각 범주에 따른 종속변수의 분포를 분석할 때 사용독립변수 X : 범주형 변수종속변수 y : 범주형 변수 적합성 검정각 범주에 따른 데이터의 관측빈도가 기대빈도를 따르는지 검정 1. 가설수립귀무가설 : 관측빈도와 기대빈도는 차이가 없다.대립가설 : 관측빈도와 기대빈도는 차이가 있다. 2. 유의수준 설정 (0.05)3. 검정통계량 값 및 유의확률(p-value) 계산1. 데이터가 주어진 경우from scipy.stats import chisquarechisquare(관측빈도, 기대빈도) # 관측빈도는 범주.value_counts() 결과 값을 입력, 관측빈도와 기대빈도는 array 형태로 입력해야 함 2. 데이터가 주어지지 않은 ..

ADP/통계분석 2024.10.10

[통계분석] 분산분석(ANOVA) - 이원배치 분산분석

분산분석(ANOVA)이란?3개 이상의 다수 집단 간 평균 차이를 비교할 때 사용독립변수 X : 범주형 변수 (성별, 종교, 부서)종속변수 y : 연속형 변수 이원배치 분산분석두 개의 요인에 따른 3개 이상의 집단 평균을 비교할 때 사용F 검정통계량을 이용함각 집단의 측정치는 서로 독립적이라고 가정함두 개의 요인에 상관관계가 있는지를 살펴보는 교호작용(두 요인의 조합으로 인해 종속변수에 미치는 특별한 영향)에 대한 검증이 반드시 진행되어야 함 1. 가설수립교호작용 검정        귀무가설 : 독립변수 A와 B의 상호작용 효과가 없다.        대립가설 : 독립변수 A와 B의 상호작용 효과가 있다.주효과 검정1        귀무가설 : A에 따른 종속변수 값에는 차이가 없다.         대립가설 :..

ADP/통계분석 2024.10.10

[통계분석] 분산분석(ANOVA) - 일원배치 분산분석

분산분석(ANOVA)이란?3개 이상의 다수 집단 간 평균 차이를 비교할 때 사용독립변수 X : 범주형 변수 (성별, 종교, 부서)종속변수 y : 연속형 변수 일원배치 분산분석하나의 요인(성별, 종교, 부서)에 따른 3개 이상의 집단 평균을 비교할 때 사용F 검정통계량을 이용함각 집단의 측정치는 서로 독립적이라고 가정함 1. 가설수립귀무가설 : k개의 집단 간 모평균 간에는 차이가 없다.대립가설 : k개의 집단 간 두 모평균 간에는 차이가 있다. 2. 유의수준 설정 (0.05) 3. 정규성 검정귀무가설 : 데이터는 정규성을 만족한다.대립가설 : 데이터는 정규성을 만족하지 않는다.from scipy.stats as statsstats.shapiro(X1)stats.shapiro(X2)stats.shapir..

ADP/통계분석 2024.10.10
728x90