본문 바로가기

전체 글115

가중치 규제 - Ridge,Lasso,Elastic Net 0.  과적합(Overfitting) 과 일반화 성능회귀분석의 성능을 평가할 때 대부분 실제값 - 예측값의 차이를 가지고 평가한다.실제값 - 예측값의 관계만 살펴보게 되면 회귀계수에 대해서 과적합이 되는 경우가 발생할 수 있다.이렇게 되면, 당연히 train 데이터 성능보다,  test 데이터에서는 성능이 잘 안 나올 수 있고, 실시간 배치 데이터를 받았을 때 성능이 나빠질 수 있다. 과적합을 방지하여 일반화 성능을 높이는 방법은 다음과 같다. 1. 학습 데이터 늘리기2. 모델의 복잡도 줄이기3. 가중치 규제(Regularization) 적용4. 드롭아웃 모델은 기본적으로 손실함수(Cost Function)을 최소화하는 방법으로 작동한다.이때, 학습데이터에 존재하는 노이즈가 과하게 모델에 반영되어, 손실.. 2024. 7. 28.
ANOVA(Analysis of Variance , 분산 분석) ANOVA(Analysis of Variance , 분산 분석)이란?집단 간의 차이를 비교하기 위한 분석이다.두 집단까지는 평균 차이(T-Test)를 이용하여 검정하였지만, 세 집단부터는 분산(F-통계량)을 이용해서 통계적 유의성을 검정한다. 🔎 왜 세 집단 이상부터는 평균(Average)이 아니라, 분산(Variance) 을 이용해서 검정할까?T검정을 독립적으로 연속해서 수행할 경우, 유의 수준(significance level)이 왜곡된다.예를 들어 A,B,C 세 집단이 있다. 이들의 평균을 비교하고, 해당 표본 집단의 평균이 모집단에서도 유의한지 검정해보려면 두 집단씩 T- Test 를 하게 된다.(A와 B 비교, A와 C 비교, B와 C 비교)유의 수준을 5%(두 집단 간 평균 차이가 우연히 발.. 2024. 6. 1.
RFM 기반 군집 분석 1. RFM 분석RFM 고객 분석하기 위한 피처를 R,F,M 피처를 가지고 고객을 이해/분석하는 방법론이다.Recency : 얼마나 최근에 구매했는가 Frequency : 얼마나 자주 구매했는가 Monetary : 얼마나 많은 금액을 지출했는가 RFM 지표 도출 방법RFM 지표 도출 단위는 고객 한명이다. (customerID로 groupby)Recency(R)가장 최근 구매한 상품 구입일과 현재 기준까지의 기간# 현재 날짜 설정 current_date = pd.to_datetime('today') # Recency 계산 df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate']) recency_df = df.groupby('CustomerID').InvoiceDate.. 2024. 5. 26.
Do It 딥러닝 교과서 - 딥러닝 쉽게 이해하기 이 포스팅은 Do It 딥러닝 교과서(https://m.yes24.com/Goods/Detail/104229648) 저자 윤성진님의 강연 내용을 바탕으로 작성한 것임을 밝힙니다.머신러닝과 딥러닝 개요머신러닝머신러닝은 학습 과정을 통해 지능을 만들려는 기술이다.주로 데이터를 활용하여 규칙과 패턴을 구축함으로써 추론 능력을 갖추는 것이 목표라고 할 수 있다.지도 학습 (Supervised Learning): 정답을 알려주며, 주로 회귀 분석에서 함수 형태로 표현한다.비지도 학습 (Unsupervised Learning): 정답을 알려주지 않으며, 데이터의 패턴을 스스로 발견한다.강화 학습 (Reinforcement Learning): 연속적인 행동을 통해 목표를 달성하도록 학습한다(알파고)딥러닝딥러닝은 인공.. 2024. 5. 18.
K-Means Clustering 알고리즘 Clustering 알고리즘이란?레이블이 지정되지 않은 데이터 셋을 일정한 클러스터 기준으로 그룹화하는 알고리즘이다 -> Unsupervised Learning(비지도 학습)클러스터링 알고리즘은, 데이터셋이 얼마나 뭉쳐져 있는지/ 얼마나 떨어져있는지/ 비슷한 분포를 따르는지 등의 기준으로 그룹화 할 수 있다.Kmeans Clustering 알고리즘이란?데이터를 K개의 클러스터로 그룹화하는 알고리즘으로, 데이터 포인트끼리 얼마나 가까운지를 기준으로 그룹화한다.클러스터의 중심점(Centroid)을 가지고, 클러스터를 할당하거나 중심점을 업데이트 하는 방식으로 작동한다. 핵심 아이디어할당 단계(cluster assignment step) :  K 개의 클러스터를 할당업데이트 단계(move centroid st.. 2024. 5. 11.
KNN 알고리즘 모델 적용 - 하이퍼 파라미터(k값, 가중치) KNN 알고리즘 KNN(최근접 이웃) 알고리즘은 지도 학습 알고리즘으로, 가장 가까운 이웃들의 정보를 사용하여 새로운 데이터 포인트를 분류 또는 회귀하는 알고리즘이다. (개념에 대한 설명은 아래 포스팅을 참고)https://datapilots.tistory.com/101 [ML]K-NN 알고리즘K-Nearest Neighbor : KNN , 최근접 이웃 개요 휘귀와 분류 모두 가능한 Memory-Based Learning 지도학습 알고리즘이다. (분류에 더 많이 사용) 이 알고리즘은, 유사한 데이터 포인트는 유사한 레이블이나 값을datapilots.tistory.com KNN 알고리즘 모델 피팅데이터 형식x : 행렬(metrix)y : 벡터(vector) 간단한 알고리즘 피팅 해보자.x1 = np.ara.. 2024. 5. 4.
[ML]KNN 알고리즘 K-Nearest Neighbor : KNN , 최근접 이웃개요휘귀와 분류 모두 가능한 Memory-Based Learning 지도학습 알고리즘이다. (분류에 더 많이 사용)이 알고리즘은, 유사한 데이터 포인트는 유사한 레이블이나 값을 갖는 경향이 있다는 아이디어에 의존한다.즉, 새로운 데이터가 주어졌을 때, 거리 기반으로 가장 가까운 K개의 이웃 데이터들을 찾아서 이 데이터의 클래스 또는 값을 예측하게 된다.    가운데 동그라미(새로운 데이터 포인트)가 네모 카테고리로 분류되어야 하는 것인지,세모 카테고리로 분류되어야 하는지 k개의 이웃 개수에 따라 결정된다.Memory-Based Learning(Instance - Based - Learning)K-Nearest Neighbors(KNN)는 메모리 .. 2024. 4. 7.
빅데이터분석기사(필기) 4과목 정리 빅데이터 결과 해석 분석 모형 평가 분석 모형 설정 및 평가 기준/ 방법 분석 모형 설정 : 낮은 편향, 낮은 분산으로 설정되어야 함 구분 설명 편향 학습 알고리즘에서 잘못된 가정을 했을 때 발생 분산 훈련 데이터에 내재된 작은 변동으로 발행하는 오차 분석 모형 평가 : 일반화의 가능성, 효율성, 예측과 분류의 정확성 분석 모형 평가 방법 구분 평가기법 범주형 혼동행렬(Confusion Matrix) 연속형 RMSE, MAE, MAPE 등 회귀 모형 평가 지표 평가지표 설명 SSE 오차 제곱합 SST 전체 제곱합 SSR 회귀 제곱합 AE 평균 오차 MPE 평균 백분율 오차 MAE 평균 절대 오차 MAPE 평균 절대 백분율 오차 MSE 평균 제곱 오차 RMSE 평균 제곱근 오차 b. 회귀 모형의 결정계수와.. 2024. 4. 7.
빅데이터분석기사(필기) 3과목 정리 빅데이터 모델링 분석 기법 적용 회귀분석 개념 : 독립변수와 종속변수 간에 선형적인 관계 도출, 종속변수 예측 변수 : 독립변수(설명, 예측), 종속변수(반응, 결과) 가정 : 선형성(독립변수, 종속변수), 독립성(잔차, 독립변수), 등분산성(잔차의 분산, 독립변수), 비상관성(관측치, 잔차), 정상성(정규성,잔차항) - 선독등비정 검증 회귀모형이 유의미한가? > F-통계량 회귀계수가 유의미한가? > T통계량, P-value 신뢰구간 확인 설명력 > 결정계수(R2) 데이터 적합 > 잔차를 그래프로 표현 후 회귀진단 가정 만족 특징 등분산성을 만족 시키기 위해 모든 값들의 대하여 잔차의 분산이 동일하다는 전제가 가정되어야 한다. 종속변수 변환은 로그 변환이 일반적이다. 절차 독립/종속변수 선정 > 회귀 계.. 2024. 4. 7.
빅데이터분석기사(필기) 2과목 정리 2. 빅데이터 탐색 데이터 전처리 데이터를 분석에 적합한 형태로 만듦 반복적으로 수행 분석하려는 데이터와 유사한 데이터는 연계, 통합해서 처리 이상값 제거, 결측치 처리, 노이즈 제거 정제 > 결측값 처리 > 이상값 처리> 분석 변수 처리 데이터 정제 결측값 처리, 이상체 제거의 과정 결측값 : 입력 누락 노이즈 : 실제로 입력 되지 않았지만, 입력되었다고 잘못 판단 이상값 : 데이터 범위에서 많이 벗어난 값 절차 : 오류 원인 분석 > 정제 대상 선정 > 정제 방법 결정 모든 데이터 대상, 비정형 데이터의 경우 더 많은 정제를 요구 외부데이터( 내부데이터), 비정형, 반정형 데이터( 정형) 가 품질 저하 위협에 더 노출됨 노이즈와 이상값은 비정형 데이터에서 자주 발생 데이터 정제 방법 삭제, 대체, 예.. 2024. 4. 6.