본문 바로가기

분류 전체보기113

[텍스트 분석] Python 문법 , 정규표현식으로 텍스트 분석하기 - basic 텍스트 전처리 단계 1. 데이터 정제 (Python 문법, 정규표현식 사용) 2. 한글/영어에 따라 전처리 진행(nltk, konlpy) 토큰화 : 텍스트의 단위를 token으로 나누기 문장토큰화/단어토큰화/단어보다 더 작은 형태로 토큰화 정규화 : 어간 추출, 표제어 추출 ex) go, goes > go 품사 태깅 : 명사, 대명사, 형용사 등으로 분석 요구에 따라 태깅 👉 이번 포스팅은 파이썬 문법과 정규표현식을 활용하는 데이터 정제 에 관한 내용이다. 1. 데이터 정제 - Python 기본 문법 기본 문법 str : 시리즈 데이터 형태.str.다른문법 형태로 사용 (pandas 에서 제공) > 파이썬 문법들과 응용해서 사용한다! - ex) df['text'].str.strip() - strip() .. 2024. 2. 17.
[Github] Readme.md 스킬, 라이브러리 배지 삽입 방법 배지 삽입하는 방법 배지는 깃허브 readme.md 에서 많이 볼 수 있는, SkillSet 표시나 사용한 라이브러리를 시각적으로 표시할 때 많이 사용한다. 배지 API를 제공하고 있는 shields.io 를 이용해서, 이미지 파일 없이 readme 를 작성할 수 있는 방법을 소개한다. Static Badge | Shields.io One of the named logos (bitcoin, dependabot, gitlab, npm, paypal, serverfault, stackexchange, superuser, telegram, travis) or simple-icons. All simple-icons are referenced using icon slugs. You can click the ico.. 2024. 2. 15.
[Tableau] 범프 차트 - 순위 변동 나타내기 범프 차트 범프 차트는 시간에 따른 변화나 카테고리 간의 상대적인 순위를 보여줄 때 사용하는 차트이다. 제품 카테고리별 매출 순위 변동을 시각화해보자. Point 1. 제품 카테고리별 매출 순위에 따라 색상 구분, 레이블 설정 2. 라인 차트 / 원 차트 각각 생성 후 이중축 설정 (1) 단순 라인 차트 매출 필드를 가지고 중분류별 매출을 나타내면 위와 같은 차트가 그려진다. 합계(매출)을 순위로 변경하게되면, 아래와 같이 나타나게 된다. 여기서, 다음을 사용하여 계산 > 중분류를 선택해준다. 매출의 순위를 중분류에 따라 계산하게 된다. 카테고리별 순위가 라인 차트로 잘 보이게 된다. 합계(매출) > 퀵테이블 계산 > 순위 다음을 사용하여 계산 > 중분류 이제, 같은 방식으로 행 선반의 매출 필드를 co.. 2024. 2. 14.
[Tableau] 간트 차트, 워터폴 차트 간트 차트 간트 차트(Gantt chart)는 프로젝트 관리 및 일정 관리를 시각화하는 데 사용되는 그래프 형식이다. 프로젝트의 작업, 시작일, 종료일 및 작업 간의 관계를 보여주어, 주로 프로젝트 관리자나 팀이 프로젝트 일정을 추적하고 관리할 때 사용되는 차트이다. 간트 차트를 가지고 스타벅스 매장 운영 시간을 나타내보자. (1) 영업시작시간(분) 기준으로 배치 차트 > 간트차트로 설정해준다. 영업시간이 아닌, 영업시작시간(분, 불연속형) 열 선반에 위치 시켜주면 위와 같이 영업시작시간을 기준으로 그래프가 그려진다. 여기서, 영업시간 만큼 그래프를 늘리려면, 영업시간 필드를 마크 크기에 드래그 해주면 된다. (2) 영업시작시간, 영업종료시간 레이블 편집 - 영업시작시간 과 영업종료시간을 마크-레이블로 .. 2024. 2. 14.
[Tableau] 도넛차트 - 고객 세그먼트 별 매출 비중 1. 도넛차트 _ 고객 세그먼트 별 매출 비중 도넛차트는 데이터의 '비중' 을 쉽게 파악하기 위한 목적으로 사용된다. 도넛 차트, 파이 차트를 사용할 때는 차트의 설명력을 위해 '레이블'을 적절히 활용해야한다. 도넛 차트를 만드는 순서 (1) 파이 차트 생성하기 (2) 원 모양 차트 생성 후 이중축으로 겹치기 (1) 파이 차트 생성 - 주문 날짜, 세그먼트, 매출 필드를 동시 선택하여 오른쪽 상단 표현방식 클릭> 파이차트 선택 - 년(주문 날짜) 열 선반으로 드래그 - 레이블 : 세그먼트, 합계(매출) 로 지정 (2) 원 모양 차트 만들기 - 축 생성 (MIN(0)) 행 선반에서 더블 클릭 후 MIN(0) 입력 x 2 - 차트 수정 축을 두개 생성했으므로 파이 차트가 두번 그려진다. 따라서 나머지 하나의.. 2024. 2. 14.
코사인 유사도(CountVectorizer , TF-IDF 벡터화) 1. 코사인 유사도(Cosine Similarity) 코사인 유사도란, 벡터 간의 코사인 각도를 이용하여 비교하는 두 벡터간의 유사도이다. 각도 = 유사도로 판별하여 거리가 중요하지 않을 경우에 사용하는 방식으로, 자연어 처리 등에 사용되는 기법이다. 코사인 유사도는 -1 ~ 1 사이의 값을 가진다. 1 : 두 벡터가 0도의 각을 가짐 0 : 두 벡터가 90 도의 각을 가짐 -1 : 두 벡터가 180도의 각을 가짐 예를 들어, 다음과 같은 두 문장을 각각 벡터화해보면 text1 = '파이썬은 쉬워요' text2 = '파이썬은 쉬워요 파이썬은 쉬워요' 파이썬은 쉬워요 text1 1 1 text2 2 2 단어가 똑같고 빈도수만 다르기 때문에, 코사인 유사도를 계산할 경우 값이 1이 나오게 된다. ( 빈도수는.. 2024. 2. 12.
Python 대용량 데이터 처리 라이브러리 - Dask 지난 포스팅에서는, pandas 라이브러리로 대용량 데이터를 불러올 때 가장 쉽게 사용할 수 있는 파라미터에 대해 알아봤다. 하지만, 데이터 용량이 크거나, 많은 파일의 시계열 데이터를 concat하여 처리해야 할 때는 pandas 라이브러리만 사용해서는 효율적인 처리가 어려우며 병렬처리를 고려해야 하는 상황이 발생할 수 있다. Dask는 가상 데이터프레임을 사용해서 대규모 데이터셋을 병렬로 처리한다. Apache Spark와 비슷하지만 numpy, pandas와 긴밀하게 연결되어 있고, Pandas 와 유사한 API를 제공하기 때문에 이해가 쉽다. Dask는 병렬 처리를 통해 대용량 데이터 처리 성능을 향상시키고, 병목 현상을 줄여준다. Dask 병렬 처리 작동원리 지연 평가 (Lazy Evaluati.. 2024. 2. 4.
Python 대용량 데이터 처리 파라미터 - Pandas pd.read_csv(file_path, usecols=usecols, dtype=dtype, chunksize=chunksize) 파일 사이즈가 매우 큰 파일은 한번에 불러오는 경우 kernal이 종료되는 경우가 있다. 소개할 방법들은 대용량 처리를 간단하게 할 수 있고, 대용량 파일을 다룰 때 가장 먼저 고려할 수 있는 방법이다. chunksize 대용량 데이터 파일을 한 번에 메모리에 로드하지 않고, 지정된 크기의 청크(chunk)로 나누어서 읽을 때 사용한다. pd.read_csv('file.csv', chunksize=1000) : 파일을 1000행 단위로 볼러옴 > 하나의 DataFrame으로 반환 dtype 각 열의 데이터 유형을 지정한다. 데이터를 읽을 때 Pandas는 데이터의 유형을 추.. 2024. 2. 1.
Kaggle 시계열 데이터 분석 Kaggle Aquifer_Petrignano 데이터로 구현해본 시계열 데이터 분석 과정이다. 데이터 날짜, 강수량, 지하수 깊이, 온도, 천연가스 체적, 수위 등의 다양한 지표가 포함되어있다. 개요 0. target/features 구분 1. 결측치 시각화 fillna(np.inf) 시각화 River_Hydrometry, Drainage_volumns 결측치 시각화 Heatmap 시각화 2. 결측치 Impoutation Drainage_volumn 대치 케이스별 시각화 3. resampling 경향성 확인 4. 다운샘플링 - 변수 별로 다르게 5. Stationary 정상성 정상성을 가진 데이터 특성 정상성이 중요한 이유 6. 정상성 판단 7. Augmented Dickey-Fuller (ADF) 검정.. 2024. 1. 27.
[Tableau] 세부 수준 계산식(LOD) 1. 전일대비 종가 등락 주식 data 의 '종가'를 가지고 전일 대비 등락을 표현해본다. (1) 테이블 계산식 생성 LOOKUP 함수를 사용해서, 전일대비 종가의 차이를 계산해준다. (LOOKUP : 지정된 기준 오프셋만큼 떨어진 대상 행에서 주어진 식을 계산하는 함수) [전일 대비 종가 등락] 을 가지고, 등락 여부를 기호로 표현해주는 계산식을 생성한다. 색상 구분을 통해 그래프에 시각화하는 용도이다. (2) 선반 - 이중축 합계(종가) - 라인 합계(종가)(2) - 원 , 등가 여부 색상 > 색상 2. 지역별/전국구 구성비 함께 보기 매출의 구성비율을 시각화한다. 전체 기준 비율과 지역 기준 비율을 따로 생성해서 시각화 해야 한다. (1) [전국 기준 매출] , [전국 기준 구성비율] 테이블 계산 .. 2024. 1. 27.