01. 웹 스크래핑이란?

데이터 분석/웹 스크래핑

01. 웹 스크래핑이란?

알파고제로 2023. 10. 20. 09:32

■ Web Scraping과 Web Crawling

Web Crawling : 인터넷에서 웹 페이지를 자동 탐색하고 수집하는 과정 (네이버 yeti, 구글봇)
Web Scraping : 웹 페이지 내에서 원하는 정보를 추출하는 기술 (Beautiful Soup, Selenium)

■ 사전 지식

Web 구성요소 (html + CSS) 및 DOM 구조의 이해
파이썬 기본 문법
Database (Option)

■ Web scraping의 방법

HTML 페이지를 가져와서 HTML/CSS 등을 파싱하고 필요한 데이터만 추출
Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출
브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출

■ robots.txt crawling 적법성 여부 확인

웹 사이트에 웹 크롤링 봇들의 접근에 제약을 두기 위한 규약
검색엔진의 크롤링 봇들은 각 사이트에서 제공하는 텍스트 문서인 robots.txt 파일을 열어본 뒤 수집 여부를 결정.
예) http://naver.com/robots.txt

■ crawling 분쟁

후발주자가 선행 주자를 빨리 따라잡기 위해 불법으로 데이터를 가져오는 행위
‘잡코리아’ vs. ‘사람인’
‘야놀자’ vs ‘여기어때’