데이터 분석/웹 스크래핑
01. 웹 스크래핑이란?
알파고제로
2023. 10. 20. 09:32
■ Web Scraping과 Web Crawling
- Web Crawling : 인터넷에서 웹 페이지를 자동 탐색하고 수집하는 과정 (네이버 yeti, 구글봇)
- Web Scraping : 웹 페이지 내에서 원하는 정보를 추출하는 기술 (Beautiful Soup, Selenium)
■ 사전 지식
- Web 구성요소 (html + CSS) 및 DOM 구조의 이해
- 파이썬 기본 문법
- Database (Option)
■ Web scraping의 방법
- HTML 페이지를 가져와서 HTML/CSS 등을 파싱하고 필요한 데이터만 추출
- Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출
- 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출
■ robots.txt crawling 적법성 여부 확인
- 웹 사이트에 웹 크롤링 봇들의 접근에 제약을 두기 위한 규약
- 검색엔진의 크롤링 봇들은 각 사이트에서 제공하는 텍스트 문서인 robots.txt 파일을 열어본 뒤 수집 여부를 결정.
예) http://naver.com/robots.txt
■ crawling 분쟁
- 후발주자가 선행 주자를 빨리 따라잡기 위해 불법으로 데이터를 가져오는 행위
- ‘잡코리아’ vs. ‘사람인’
- ‘야놀자’ vs ‘여기어때’