728x90
빅데이터 결과 해석
분석 모형 평가
- 분석 모형 설정 및 평가 기준/ 방법
- 분석 모형 설정 : 낮은 편향, 낮은 분산으로 설정되어야 함
구분 설명 편향 학습 알고리즘에서 잘못된 가정을 했을 때 발생 분산 훈련 데이터에 내재된 작은 변동으로 발행하는 오차 - 분석 모형 평가 : 일반화의 가능성, 효율성, 예측과 분류의 정확성
- 분석 모형 평가 방법
구분 평가기법 범주형 혼동행렬(Confusion Matrix) 연속형 RMSE, MAE, MAPE 등
- 분석 모형 설정 : 낮은 편향, 낮은 분산으로 설정되어야 함
- 회귀 모형 평가 지표
평가지표 설명 SSE 오차 제곱합 SST 전체 제곱합 SSR 회귀 제곱합 AE 평균 오차 MPE 평균 백분율 오차 MAE 평균 절대 오차 MAPE 평균 절대 백분율 오차 MSE 평균 제곱 오차 RMSE 평균 제곱근 오차 평가지표 설명 공식 결정계수(R2) 설명력, 값이 1에 가까울수록 실제값을 잘 설명 SSR/SST 수정된 결정 계수(Adjusted R2) 적절하지 않은 독립변수를 추가하는 것에 패널티를 부과함 1 - (n-1/n-p-1)SSE/SST Mallow’s Cp 작을 수록 잘 설명력이 좋음, 적절하지 않은 독립변수를 추가하는 것에 패널티 부과 - 분류 모형 평가지표
Predicted Positive Predicted Negative Actual Positive TP FN Actual Negative FP TN
평가지표 수식 설명 정확도 TP + TN / 전체 전체 예측에서 True 비율 오차비율 1- 정확도 TP Rate(= 재현율 Recall, 민감도 Sensitivity) 예측 T / 실제 T 실제로 긍정인 범주 중에서 올바르게 예측한 비율 특이도 예측 F / 실제 F 실제로 부정인 범주 중에서 부정으로 올바르게 예측한 비율 FP Rate 예측 T / 실제 F 실제로 부정인 범주 중에서 긍정으로 잘못 예측한 비율 정밀도(Precision) 실제 T / 예측 T 긍정으로 예측한 비율 중에서 실제로 긍정인 비율 - x축 : TPR, y축 : FPR, 1일수록, 왼쪽 꼭대기에 가까울수록 좋음
- 교차 검증
- 교차 검증 종류
구분 개념 특징 홀드아웃 전체 데이터를 비복원추출하여 랜덤하게 학습용/평가용/검증용으로 나눠 검증 데이터 손실 발생 K-Fold 무작위로 동일 크기를 갖는 k개의 부분집합으로 나누고, 그 중 1개의 집합을 평가용으로 사용, k-1 개는 학습용 k 값이 증가하면 수행시간과 계산량이 많아짐 LOOCV kfold와 같은 방법이지만, 번갈아가면서 학스용/평가용으로 사용 수행시간과 계산량이 많음 LpOCV nCp(n!/(n-p)!p! 만큼 교차검증 반복 부트스트랩 단순랜덤복원추출 , 중복허용하여 샘플 추출(학습용) 한번도 포함되지 않은 데이터는 검증에 사용
- 교차 검증 종류
- 분석 모형 개선
- 과대 적합 방지
- 개념 : 학습용 데이터에 지나치게 특화되어, 새로운 데이터에 대한 오차가 매우 커지는 현상
- 분석 모형 용어
- 일반화 : 테스트 데이터에 대한 높은 성능을 갖춤, 정상추정(과대 x, 과소x)
- 과대 적합
- 과소 적합
- 원인 : 데이터 편향, 오류 포함, 모델 복잡도 높음, 변수가 많음
- 방지 기법
- 데이터 증강 : 데이터 양 늘리기
- 모델의 복잡도 감소 : 인공신경망의 은닉층 수 감소
- 가중치 규제 적용
- L1 노름 규제(Lasso) : 기존 비용 합수에 모든 가중치들의 절댓값 합계 추가 , 값이 최소가 되도록 함
- L2 노름 규제(Lidge) : 기존 비용 합수에 모든 가중치들의 제곱합 추가 , 값이 최소가 되도록 함
- 엘라스틱 넷 : 기존 비용함수에 L1규제 , L2 규제 추가
- 드롭아웃 : 학습과정에서 신경망 일부를 사용하지 않음
- 특징 : 드롭아웃은 학습시에만 사용, 예측시에는 사용하지 않음, 앙상블 효과
- 유형
- 초기 드롭아웃 : 학습과정에서 노드들을 p의 확률로 학습횟수마다 임의 생략 > DNN
- 공간적 드롭아웃 : 특징 맵 내의 노드 전체에 대해 적용 여부 결정 > CNN
- 시간적 드롭아웃 : 노드를 생략하는 것이 아닌 연결선 일부를 생략 > RNN
- 매개변수 최적화
- 매개변수 : 주어진 데이터로부터 학습을 통해 모델 내부에서 결정
- 과정 : x 축에는 가중치, y축에는 손실 값을 갖는 2차원 손실함수 그래프를 이용하여 최적화
- 학습률이 적절한 경우 : 기울기가 0인 지점을 찾게 되어 최적화 됨
- 확률적 경사 하강법(SGD)
- 개념 : 손실함수의 기울기를 구하여, 기울기를 따라 조금씩 내려가서, 손실함수가 가장 작은 곳에 도달
- 단점 : 지역 극소점에 갖혀 전역 극소점을 찾지 못할 수 있음
기법 개념 특징 모멘텀 경사 + 속도, 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리법칙 적용, 누적된 기울기로 지그재그 네스테로프 모멘텀 모멘텀 방향과 현재위치에서의 기울기를 반영, 모멘텀 방향을 미리 적용한 위치에서 기울기 개선(계산량 줄이고, 정확도 향상) 부드러운 지그재그 AdaGrad 손실함수의 기울기가 큰 첫 부분에서는 크게 학슴, 최적점에 가까워질수록 학습률을 줄임 지그재그 움직임이 줄고, 최적점으로 수렴 Adam 모멘텀 + AdaGrad 모멘텀 방식보다 좌우 흔들림이 덜함 RMSProp 지수이동평균 사용(가장 최근의 기울기들이 더 크게 반영되도록) 학습률이 크게 떨어져 0에 가까워지는 것을 방지, 진동을 줄이는 효과 - ⇒ 개선 : 모멘텀, AdaGrad, Adam 등이 개선함
- 초개매변수 최적화
- 절차 : 평가 기준 선정 > 결과 검토 > 알고리즘별 결과 비교
- 기법
기법 설명 메뉴얼 탐색 사용자가 뽑은 조합 내 최적의 조합 탐색 그리드 탐색 경우의 수 내에서 최적의 조합 탐색 램덤 탐색 하이퍼파라미터의 최소, 최댓값을 정해두고 무작위로 반복하여 최적의 조합 탐색 베이지안 최적화 단순 무작위가 아닌, 기존에 추출되어 평가된 결과를 바탕으로 앞으로 탐색할 범위를 더욱 좁혀 효율적이게 시행
- 과대 적합 방지
- 분석 결과 시각화
분류 개념 유형 시간 시각화 시간에 따른 변화 표현, 경향성, 추세선 막대, 누적 막대, 선, 영역, 계단식, 추세선 공간 시각화 지도상에 해당하는 정보를 표현, 위도와 경도를 사용 등치지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램(왜곡) 분포 시각화 최댓값, 최솟값 등 전체 분포를 나타냄 파이 차트, 도넛 차트, 트리맵, 누적 영역 관계 시각화 다변량 데이터 사이에 존재하는 변수 사의의 연관성, 분포와 패턴 산점도, 산점도 행렬, 버블 차트, 히스토그램 비교 시각화 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현 플로팅 바 차트(간트), 히트맵, 체르노프 페이스, 스타차트(레이더, 스파이더), 평행 좌표 인포그래픽 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화, 그래픽 + 텍스트, sns 상에 정보전달이 쉬움 지도, 도표, 스토리텔링, 타임라인, 비교분석, 만화 - 카토그램 : 형상의 크기를 조절한다(버블차트랑 헷갈림)
- 관계 시각화, 비교 시각화 구분
728x90