728x90

ADP 23

제33회 데이터 분석 전문가(ADP) 실기 결과

문제 복원 및 후기는 이전 글 참고해주세요 !2024.10.12 - [ADP] - 제33회 데이터 분석 전문가(ADP) 실기 복원 및 후기 제33회 데이터 분석 전문가(ADP) 실기 복원 및 후기정확히 기억 안 나는 부분이 많지만 최대한 떠올려서 적어봅니다. 기록 및 공부용이라 잘못된 내용이 있으면 알려주세요..! 준비 기간  - 2달2024/08/12~2024/10/12정확히 공부를 시작한 건 기억이 나rtw0202.tistory.com 11월 1일, 제33회 데이터 분석 전문가(ADP) 실기 사전점수 발표가 있었다.결과가 궁금해 전에 알람까지 맞춰놨어서 4시 되자마자 결과를 확인했다. 사실 불합격은 알았지만 몇 점 차이로 불합격할지가 궁금했다..  결과는 역시나 불합격..ㅎㅎ 아깝게 떨어진 게 아니라..

ADP 2024.11.03

제33회 데이터 분석 전문가(ADP) 실기 복원 및 후기

정확히 기억 안 나는 부분이 많지만 최대한 떠올려서 적어봅니다. 기록 및 공부용이라 잘못된 내용이 있으면 알려주세요..! 준비 기간  - 2달2024/08/12~2024/10/12정확히 공부를 시작한 건 기억이 나지 않지만 주피터 노트북에서 처음 다운로드 받은 데이터 다운로드 날짜가 저 날이길래 그대로 적었다. 사용 언어 - 파이썬처음엔 실기 책이 따로 없어서 필기를 준비했던 책만 보고 공부하느라 R로 할까 했다가 그래도 파이썬이 익숙하고 쓰기에도 편해서 통계분석까지 모두 파이썬으로 풀었다.  1. 머신러닝 (60점)1. 간염 데이터 이진 및 다중 분류 예측 (종속변수 Category)1-1. EDA 및 전처리1) 결측치 처리 방법 두 가지 제시 및 두 가지 수행해보고 더 나은 걸로 진행하시오.단순 제거..

ADP 2024.10.12

[통계분석] 예제로 풀어보는 교차분석(카이제곱검정)

교차분석(카이제곱검정)2개 이상의 범주형 변수 간의 관계를 분석할 때 사용각 범주에 따른 종속변수의 분포를 분석할 때 사용 적합성 검정titanic 데이터에서 성별에 대한 분할표를 생성하고 아래의 가설에 대한 적합도 검정을 수행하여라. (유의수준 = 0.05) 귀무가설 : 타이타닉호의 생존자 중 남자와 여자의 비율은 차이가 없다.대립가설 : 타이타닉호의 생존자 중 남자와 여자의 비율은 차이가 있다. 1. 검정통계량 값 및 p-value(유의확률) 계산df_t = df[df['Survived']==1] # 생존자 데이터table = df_t['Sex'].value_counts() # 성별에 대한 분할표from scipy.stats import chisquarechisquare(table, f_exp=[17..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 분산분석(ANOVA) - 이원배치 분산분석

이원배치 분산분석두 개의 요인(성별, 종교, 부서)에 따른 세 개 이상의 집단 평균 비교두 독립변수 A, B 사이에 상관관계가 있는지를 살펴보는 교호작용(두 독립변수의 조합으로 인해 반응변수에 미치는 특별한 영향)에 대한 검증이 반드시 진행되어야 함 변속기 종류(am)와 실린더 개수(cyl)에 따라 주행거리(mpg) 평균에 차이가 있는지 통계적 검정을 수행하여라 (정규성, 등분산성을 만족한다는 가정, 유의수준 = 0.05) mtcars = mtcars[['mpg', 'am', 'cyl']] # mpg : 주행거리, am : 변속기 종류, cyl : 실린더 개수 1. 가설설정1. 교호작용 검정    귀무가설 : 변속기 종류와 실린더 개수 간에는 상호작용 효과가 없다.        대립가설 : 변속기 종류와..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 분산분석(ANOVA) - 일원배치 분산분석

일원배치 분산분석하나의 요인(성별, 종교, 부서)에 따른 세 개 이상의 집단 평균 비교종(Species)별로 꽃받침의 폭(SepalWidthCm)에 차이가 있는지 통계적 검정을 수행하여라. (유의수준 = 0.05) setosa = data[data['Species']==target_list[0]]['SepalWidthCm']versicolor = data[data['Species']==target_list[1]]['SepalWidthCm']virginica = data[data['Species']==target_list[2]]['SepalWidthCm'] 1. 가설설정귀무가설 : 세 가지 종에 대해 꽃받침의 평균은 차이가 없다.대립가설 : 적어도 하나의 종에 대한 꽃받침의 평균은 차이가 있다. 2. 유의..

ADP/통계분석 2024.10.11

[통계분석] 예제로 풀어보는 t-검정

일표본 t-검정표본 평균과 특정 기준값(모집단의 가설적 평균)을 비교할 때 사용cats 데이터에서 고양이들의 평균 몸무게가 2.6kg인지 아닌지 통계적 검정을 수행하여라. (양측검정, 유의수준 = 0.05)  1. 가설설정귀무가설 : 고양이들의 평균 몸무게는 2.6kg이다.대립가설 : 고양이들의 평균 몸무게는 2.6kg이 아니다. 2. 유의수준 설정 (0.05) 문제에서 제시된 0.05 사용 3. 정규성 검정from scipy.stats as statsstats.shapiro(cats['Bwt'])# 출력값# ShapiroResult(statistic=0.9788323948987693, pvalue=0.11896203410780715)=> p-value가 유의수준(0.05)보다 크기 때문에 '데이터는 정..

ADP/통계분석 2024.10.11

[통계분석] 이항분포

이항분포란?두 가지 가능한 결과(성공 또는 실패)만을 갖는 실험을 여러 번 반복할 때 사용되는 확률 분포각 실험은 독립적이며, 성공의 확률이 일정하게 유지되는 경우에 적용 확률 질량 함수(PMF)$$P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$$$$P(X = k) : k번의 성공 확률$$$$n : 시행 횟수$$$$k : 성공한 횟수$$$$p : 성공 확률$$$$\binom{n}{k} : 조합 (nCk)으로, n개 중 k개를 선택하는 방법의 수$$stats.binom.pmf(k, n, p) # 정확히 k개의 성공이 발생할 확률을 구할 때 사용 누적 분포 함수(CDF)$$P(X \leq k) = \sum_{i=0}^{k} P(X = i) = \sum_{i=0}^{k} \bi..

ADP/통계분석 2024.10.11

[통계분석] 표본 크기 계산

평균에 대한 표본 크기 계산 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.norm.ppf(1 - alpha / 2)$$n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2$$$$n: 필요한 표본 크기$$$$z_{\alpha/2}: z임계값$$$$\sigma : 모집단 표준편차 (모르겠다면 표본 표준편차 사용 가능)$$$$E : 허용 오차 (추정 오차 한계)$$ 비율에 대한 표본 크기 계산 1. 신뢰수준 설정 (90%, 95%, 99%) 2. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.nor..

ADP/통계분석 2024.10.11

[통계분석] 신뢰구간 - 비율의 신뢰구간

비율의 신뢰구간주어진 표본에서 비율을 기반으로 모집단 비율을 추정하는 방법 1. 표본 비율 계산표본에서 성공의 수와 전체 표본 크기를 이용하여 표본 비율을 계산$$\hat{p_1} = \frac{x_1}{n_1}$$$$x_1: 표본 1의 성공의 수$$$$n_1: 표본 1의 크기$$$$\hat{p_2} = \frac{x_2}{n_2}$$$$x_2: 표본 2의 성공의 수$$$$n_2: 표본 2의 크기$$ 2. 비율 차이 계산$$\hat{p_1}-\hat{p_2}$$ 3. 표준오차 계산$$SE = \sqrt{ \frac{\hat{p_1} (1 - \hat{p_1})}{n_1} + \frac{\hat{p_2} (1 - \hat{p_2})}{n_2} }$$ 4. 임계값 찾기선택한 신뢰수준에 따라 z-score에..

ADP/통계분석 2024.10.11

[통계분석] 신뢰구간 - 모비율의 신뢰구간

모비율의 신뢰구간주어진 표본에서 관측된 비율을 기반으로 모집단 비율에 대한 추정치를 제공 1. 표본 비율 계산표본에서 성공의 수와 전체 표본 크기를 이용하여 표본 비율을 계산$$\hat{p} = \frac{x}{n}$$$$x: 성공의 수$$$$n: 표본 크기$$ 2. 표준오차 계산$$\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율$$ 3. 임계값 찾기선택한 신뢰수준에 따라 z-score에서 z-임계값을 찾음z_critical = stats.norm.ppf(1 - alpha / 2) $$\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}$$$$\hat{p} : 표본 비율 (성공한 경..

ADP/통계분석 2024.10.10
728x90