본문 바로가기

웹크롤링2

[Web] 웹 크롤링, 스크래핑 BeautifulSoup - 음원 차트 출력 BeautifulSoup 활용 Beautiful Soup은 웹 스크래핑을 쉽게 수행할 수 있도록 도와주는 파이썬 라이브러리이다. HTML 및 XML 문서를 파싱하고, 문서 내부의 데이터를 추출하거나 조작하는 데 사용된다. 음악 차트 실시간 스크래핑 1) 라이브러리 준비 [터미널] 라이브러리 설치 pip install bs4 pip install lxml Beautifulsoup4(bs4) : 웹 스크래핑을 위한 라이브러리 lxml : 파이썬용 xml, html를 처리하는 라이브러리 > 웹 스크래핑에 필요한 두 라이브러리를 설치한다. 라이브러리 임포트 import requests from bs4 import BeautifulSoup 설치한 라이브러리를 임포트 해준다. 2) 음악 차트 불러오기 실시간 순위 .. 2023. 8. 8.
[Web] 웹 크롤링,스크래핑 Basic - 3. User-Agent User-Agent 웹 브라우저의 경우, User Agent 문자열은 브라우저의 종류, 버전, 운영 체제, 장치 정보 등을 포함한다. 웹 개발자들은 다양한 장치나 브라우저에서 웹 페이지가 올바르게 표시되도록 조정하기 위해 user_agent 를 사용한다 User- Agent 기능 ( 출처 : chatgpt ) 웹 사이트의 정상적인 사용자처럼 보이기: 몇몇 웹 사이트는 봇이나 스크래퍼로부터의 요청을 차단하거나 제한할 수 있습니다. 웹 스크래핑을 하는 경우에도 웹 사이트 서버로부터의 응답을 받을 때 봇으로 감지되지 않도록 하기 위해 실제 브라우저에서 보내는 요청과 유사한 User-Agent를 사용합니다. 콘텐츠 형식 지정: 웹 서버는 User-Agent 정보를 보고 요청하는 콘텐츠를 다르게 제공할 수 있습니.. 2023. 8. 8.