ANOVA(Analysis of Variance , 분산 분석)
ANOVA(Analysis of Variance , 분산 분석)이란?집단 간의 차이를 비교하기 위한 분석이다.두 집단까지는 평균 차이(T-Test)를 이용하여 검정하였지만, 세 집단부터는 분산(F-통계량)을 이용해서 통계적 유의성을 검정한다. 🔎 왜 세 집단 이상부터는 평균(Average)이 아니라, 분산(Variance) 을 이용해서 검정할까?T검정을 독립적으로 연속해서 수행할 경우, 유의 수준(significance level)이 왜곡된다.예를 들어 A,B,C 세 집단이 있다. 이들의 평균을 비교하고, 해당 표본 집단의 평균이 모집단에서도 유의한지 검정해보려면 두 집단씩 T- Test 를 하게 된다.(A와 B 비교, A와 C 비교, B와 C 비교)유의 수준을 5%(두 집단 간 평균 차이가 우연히 발..
2024. 6. 1.
빅데이터분석기사(필기) 3과목 정리
빅데이터 모델링 분석 기법 적용 회귀분석 개념 : 독립변수와 종속변수 간에 선형적인 관계 도출, 종속변수 예측 변수 : 독립변수(설명, 예측), 종속변수(반응, 결과) 가정 : 선형성(독립변수, 종속변수), 독립성(잔차, 독립변수), 등분산성(잔차의 분산, 독립변수), 비상관성(관측치, 잔차), 정상성(정규성,잔차항) - 선독등비정 검증 회귀모형이 유의미한가? > F-통계량 회귀계수가 유의미한가? > T통계량, P-value 신뢰구간 확인 설명력 > 결정계수(R2) 데이터 적합 > 잔차를 그래프로 표현 후 회귀진단 가정 만족 특징 등분산성을 만족 시키기 위해 모든 값들의 대하여 잔차의 분산이 동일하다는 전제가 가정되어야 한다. 종속변수 변환은 로그 변환이 일반적이다. 절차 독립/종속변수 선정 > 회귀 계..
2024. 4. 7.
빅데이터분석기사(필기) 2과목 정리
2. 빅데이터 탐색 데이터 전처리 데이터를 분석에 적합한 형태로 만듦 반복적으로 수행 분석하려는 데이터와 유사한 데이터는 연계, 통합해서 처리 이상값 제거, 결측치 처리, 노이즈 제거 정제 > 결측값 처리 > 이상값 처리> 분석 변수 처리 데이터 정제 결측값 처리, 이상체 제거의 과정 결측값 : 입력 누락 노이즈 : 실제로 입력 되지 않았지만, 입력되었다고 잘못 판단 이상값 : 데이터 범위에서 많이 벗어난 값 절차 : 오류 원인 분석 > 정제 대상 선정 > 정제 방법 결정 모든 데이터 대상, 비정형 데이터의 경우 더 많은 정제를 요구 외부데이터( 내부데이터), 비정형, 반정형 데이터( 정형) 가 품질 저하 위협에 더 노출됨 노이즈와 이상값은 비정형 데이터에서 자주 발생 데이터 정제 방법 삭제, 대체, 예..
2024. 4. 6.