본문 바로가기

dask1

Python 대용량 데이터 처리 라이브러리 - Dask 지난 포스팅에서는, pandas 라이브러리로 대용량 데이터를 불러올 때 가장 쉽게 사용할 수 있는 파라미터에 대해 알아봤다. 하지만, 데이터 용량이 크거나, 많은 파일의 시계열 데이터를 concat하여 처리해야 할 때는 pandas 라이브러리만 사용해서는 효율적인 처리가 어려우며 병렬처리를 고려해야 하는 상황이 발생할 수 있다. Dask는 가상 데이터프레임을 사용해서 대규모 데이터셋을 병렬로 처리한다. Apache Spark와 비슷하지만 numpy, pandas와 긴밀하게 연결되어 있고, Pandas 와 유사한 API를 제공하기 때문에 이해가 쉽다. Dask는 병렬 처리를 통해 대용량 데이터 처리 성능을 향상시키고, 병목 현상을 줄여준다. Dask 병렬 처리 작동원리 지연 평가 (Lazy Evaluati.. 2024. 2. 4.

이전 1 다음

티스토리툴바