728x90

ADP/통계분석 21

[통계분석] 예제로 풀어보는 교차분석(카이제곱검정)

교차분석(카이제곱검정)2개 이상의 범주형 변수 간의 관계를 분석할 때 사용각 범주에 따른 종속변수의 분포를 분석할 때 사용 적합성 검정titanic 데이터에서 성별에 대한 분할표를 생성하고 아래의 가설에 대한 적합도 검정을 수행하여라. (유의수준 = 0.05) 귀무가설 : 타이타닉호의 생존자 중 남자와 여자의 비율은 차이가 없다.대립가설 : 타이타닉호의 생존자 중 남자와 여자의 비율은 차이가 있다. 1. 검정통계량 값 및 p-value(유의확률) 계산df_t = df[df['Survived']==1] # 생존자 데이터table = df_t['Sex'].value_counts() # 성별에 대한 분할표from scipy.stats import chisquarechisquare(table, f_exp=[17..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 분산분석(ANOVA) - 이원배치 분산분석

이원배치 분산분석두 개의 요인(성별, 종교, 부서)에 따른 세 개 이상의 집단 평균 비교두 독립변수 A, B 사이에 상관관계가 있는지를 살펴보는 교호작용(두 독립변수의 조합으로 인해 반응변수에 미치는 특별한 영향)에 대한 검증이 반드시 진행되어야 함 변속기 종류(am)와 실린더 개수(cyl)에 따라 주행거리(mpg) 평균에 차이가 있는지 통계적 검정을 수행하여라 (정규성, 등분산성을 만족한다는 가정, 유의수준 = 0.05) mtcars = mtcars[['mpg', 'am', 'cyl']] # mpg : 주행거리, am : 변속기 종류, cyl : 실린더 개수 1. 가설설정1. 교호작용 검정    귀무가설 : 변속기 종류와 실린더 개수 간에는 상호작용 효과가 없다.        대립가설 : 변속기 종류와..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 분산분석(ANOVA) - 일원배치 분산분석

일원배치 분산분석하나의 요인(성별, 종교, 부서)에 따른 세 개 이상의 집단 평균 비교종(Species)별로 꽃받침의 폭(SepalWidthCm)에 차이가 있는지 통계적 검정을 수행하여라. (유의수준 = 0.05) setosa = data[data['Species']==target_list[0]]['SepalWidthCm']versicolor = data[data['Species']==target_list[1]]['SepalWidthCm']virginica = data[data['Species']==target_list[2]]['SepalWidthCm'] 1. 가설설정귀무가설 : 세 가지 종에 대해 꽃받침의 평균은 차이가 없다.대립가설 : 적어도 하나의 종에 대한 꽃받침의 평균은 차이가 있다. 2. 유의..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 t-검정

일표본 t-검정표본 평균과 특정 기준값(모집단의 가설적 평균)을 비교할 때 사용cats 데이터에서 고양이들의 평균 몸무게가 2.6kg인지 아닌지 통계적 검정을 수행하여라. (양측검정, 유의수준 = 0.05)  1. 가설설정귀무가설 : 고양이들의 평균 몸무게는 2.6kg이다.대립가설 : 고양이들의 평균 몸무게는 2.6kg이 아니다. 2. 유의수준 설정 (0.05) 문제에서 제시된 0.05 사용 3. 정규성 검정from scipy.stats as statsstats.shapiro(cats['Bwt'])# 출력값# ShapiroResult(statistic=0.9788323948987693, pvalue=0.11896203410780715)=> p-value가 유의수준(0.05)보다 크기 때문에 '데이터는 정..

ADP/통계분석 2024.10.11

[통계분석] 이항분포

이항분포란?두 가지 가능한 결과(성공 또는 실패)만을 갖는 실험을 여러 번 반복할 때 사용되는 확률 분포각 실험은 독립적이며, 성공의 확률이 일정하게 유지되는 경우에 적용 확률 질량 함수(PMF)$$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$$$$P(X = k) : k번의 성공 확률$$$$n : 시행 횟수$$$$k : 성공한 횟수$$$$p : 성공 확률$$$$\binom{n}{k} : 조합 (nCk)으로, n개 중 k개를 선택하는 방법의 수$$stats.binom.pmf(k, n, p) # 정확히 k개의 성공이 발생할 확률을 구할 때 사용 누적 분포 함수(CDF)$$P(X \leq k) = \sum_{i=0}^{k} P(X = i) = \sum_{i=0}^{k} \bi..

ADP/통계분석 2024.10.11

[통계분석] 표본 크기 계산

평균에 대한 표본 크기 계산 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.norm.ppf(1 - alpha / 2)$$n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2$$$$n: 필요한 표본 크기$$$$z_{\alpha/2}: z임계값$$$$\sigma : 모집단 표준편차 (모르겠다면 표본 표준편차 사용 가능)$$$$E : 허용 오차 (추정 오차 한계)$$ 비율에 대한 표본 크기 계산 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.nor..

ADP/통계분석 2024.10.11

[통계분석] 신뢰구간 - 비율의 신뢰구간

비율의 신뢰구간주어진 표본에서 비율을 기반으로 모집단 비율을 추정하는 방법 1. 표본 비율 계산표본에서 성공의 수와 전체 표본 크기를 이용하여 표본 비율을 계산$$\hat{p_1} = \frac{x_1}{n_1}$$$$x_1: 표본 1의 성공의 수$$$$n_1: 표본 1의 크기$$$$\hat{p_2} = \frac{x_2}{n_2}$$$$x_2: 표본 2의 성공의 수$$$$n_2: 표본 2의 크기$$ 2. 비율 차이 계산$$\hat{p_1}-\hat{p_2}$$ 3. 표준오차 계산$$SE = \sqrt{ \frac{\hat{p_1} (1 - \hat{p_1})}{n_1} + \frac{\hat{p_2} (1 - \hat{p_2})}{n_2} }$$ 4. 임계값 찾기선택한 신뢰수준에 따라 z-score에..

ADP/통계분석 2024.10.11

[통계분석] 신뢰구간 - 모비율의 신뢰구간

모비율의 신뢰구간주어진 표본에서 관측된 비율을 기반으로 모집단 비율에 대한 추정치를 제공 1. 표본 비율 계산표본에서 성공의 수와 전체 표본 크기를 이용하여 표본 비율을 계산$$\hat{p} = \frac{x}{n}$$$$x: 성공의 수$$$$n: 표본 크기$$ 2. 표준오차 계산$$\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율$$ 3. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.norm.ppf(1 - alpha / 2) $$\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율 (성공한 경..

ADP/통계분석 2024.10.10

[통계분석] 신뢰구간 - 모분산의 신뢰구간

모분산의 신뢰구간모집단의 분산이 포함될 가능성이 높은 범위를 추정하는 통계적 방법 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 카이제곱 분포에서 임계값을 찾음chi2_lower = stats.chi2.ppf(1 - alpha/2, n - 1) # 하한chi2_upper = stats.chi2.ppf(alpha/2, n - 1) # 상한$$\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right)$$$$s^2: 표본 분산$$$$n: 표본 크기$$$$(\chi^2_{1-\alpha/2, n-1}: 1-\alpha/2에 해당하는 카이제곱 분포의 값 (하..

ADP/통계분석 2024.10.10

[통계분석] 신뢰구간 - 모평균의 신뢰구간

모평균의 신뢰구간모집단의 평균이 포함될 가능성이 높은 범위를 추정하는 통계적 방법 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 표본 평균 계산신뢰구간의 중심값이 됨 3. 모집단 표준편차 또는 표본 표준편차 결정1. 모집단의 표준편차를 알고 있는 경우 $\sigma$를 사용2. 모집단의 표준편차를 모르는 경우 $s$(표본의 표준편차)를 사용 4. 표준오차 결정1. 모집단 표준편차 $\sigma$가 주어질 때$$SE = \frac{\sigma}{\sqrt{n}}$$$$\sigma : 모표준편차$$$$n : 표본 크기$$2. 표본 표준편차 $s$가 주어질 때 (모집단 표준편차 $\sigma$가 주어지지 않을 때)$$SE = \frac{s}{\sqrt{n}}$$$$s : 표본 표준편차$$$$n : 표본..

ADP/통계분석 2024.10.10
728x90