[Web] 웹 크롤링,웹 스크래핑 Basic - 1 . requests 라이브러리

728x90

웹 스크래핑(Web Scraping) 이란?

웹 스크래핑(Web scraping)은 웹 페이지로부터 데이터를 추출하고 수집하는 과정을 말한다.
이를 위해 프로그램을 사용하여 웹 사이트의 HTML 코드를 분석하고 원하는 정보를 추출하는 작업을 수행합니다.
데이터 수집, 정보 추출, 경쟁 분석, 텍스트 마이닝 등이 수행된다.
웹 스크래핑은 웹 사이트의 이용 약관과 로봇 배제 표준(Robots Exclusion Standard)을 준수하는 한에서 수행되어야 한다.. 일부 웹 사이트는 웹 스크래핑을 금지하거나 제한하는 경우가 있으므로 주의해야 한다.

Python의 requests 라이브러리와 Beautiful Soup, Scrapy 등의 도구를 사용하여 웹 스크래핑 작업을 수행한다.

웹 스크래핑 Basic - 1 에서는 requests 라이브러리를 사용해서, 웹 페이지 데이터를 추출하는 방법을 알아볼 것이다.

1. requests

웹페이지를 요청하고 응답을 처리하는 모듈 (html 가져오는 라이브러리)

1) html 가져오기

import requests
res = requests.get("http://google.com/")

requests 모듈을 입포트 한 후, get 함수를 이용하여 html 을 가져올 사이트 주소를 입력한다.

2) 결과 확인

응답코드가 200이면 정상

if 문 사용

# 응답코드 확인
print("응답코드:", res.status_code)

# 응답코드 확인하는 if문
if res.status_code == requests.codes.ok:
    print('정상입니다.')
 else:
     print("문제가 생겼습니다.[에러코드 : ",res.status_code, "]")

 res.raise_for_status()
 print("웹 스크래핑을 진행합니다.")

res 의 status_code 가 requests codes.ok 와 같으면 정상 (응답코드가 200이면 정상)이다.

다르면, 에러코드를 출력한다.

raise_for_status()

res.raise_for_status()
print("응답코드:", res.status_code)

복잡한 if 문 없이 한 줄로 처리가 가능한 함수이다. 응답코드가 200이 아닌 경우, 에러를 출력한다.

3) html 파일 가져오기

res.text : 응답의 html 내용 가져오는 함수

print(len(res.text)) # html 텍스트 길이 출력
print(res.text) # html 텍스트 출력

파일 생성 후, 응답 내용 저장

with open("mygoogle.html","w",encoding="utf8") as f:
    f.write(res.text)

'mygoogle.html' 파일을 생성한 후, 쓰기 모드로 열어서 응답의 HTML 내용을 저장한다.

4) 브라우저로 열기

[확장] 탭에서 Live server 설치하기 (open in browser 도 가능하다 )

우클릭 > 브라우저로 열기
- Live server > Open with Live server 클릭
- Open in browser > Open In Default Browser , Open In Other Browsers 클릭

확인

Live Server, Open In Browser 이 잘 설치되었다면, html text 가 브라우저로 실행되는 것을 볼 수 있다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Web > Crawling' 카테고리의 다른 글

[Web] API 크롤링 - 서울 열린데이터광장 유동인구 API 크롤링 (0)	2023.08.13
[Web] 국가별 인구 데이터 크롤링 with Scrapy - 1 (1)	2023.08.09
[Web] 웹 크롤링, 스크래핑 BeautifulSoup - 음원 차트 출력 (0)	2023.08.08
[Web] 웹 크롤링,스크래핑 Basic - 3. User-Agent (0)	2023.08.08
[Web] 웹 크롤링 , 스크래핑 Basic - 2. re , 정규표현식 (0)	2023.08.06

DataPilots

[Web] 웹 크롤링,웹 스크래핑 Basic - 1 . requests 라이브러리

웹 스크래핑(Web Scraping) 이란?

1. requests

1) html 가져오기

2) 결과 확인

3) html 파일 가져오기

4) 브라우저로 열기

'Web > Crawling' 카테고리의 다른 글

티스토리툴바

[Web] 웹 크롤링,웹 스크래핑 Basic - 1 . requests 라이브러리

웹 스크래핑(Web Scraping) 이란?

1. requests

1) html 가져오기

2) 결과 확인

3) html 파일 가져오기

4) 브라우저로 열기

'Web > Crawling' 카테고리의 다른 글

관련글

티스토리툴바