상세 컨텐츠

본문 제목

01. 웹 스크래핑이란?

데이터 분석/웹 스크래핑

by 알파고제로 2023. 10. 20. 09:32

본문

■ Web Scraping과 Web Crawling

  • Web Crawling : 인터넷에서 웹 페이지를 자동 탐색하고 수집하는 과정 (네이버 yeti, 구글봇)
  • Web Scraping : 웹 페이지 내에서 원하는 정보를 추출하는 기술 (Beautiful Soup, Selenium)

 사전 지식

  • Web 구성요소 (html + CSS) 및 DOM 구조의 이해
  • 파이썬 기본 문법
  • Database (Option)

  Web scraping의 방법

  • HTML 페이지를 가져와서 HTML/CSS 등을 파싱하고 필요한 데이터만 추출
  • Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서 받은 데이터 중 필요한 데이터만 추출
  • 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출

  robots.txt crawling 적법성 여부 확인

  • 웹 사이트에 웹 크롤링 봇들의 접근에 제약을 두기 위한 규약
  • 검색엔진의 크롤링 봇들은 각 사이트에서 제공하는 텍스트 문서인 robots.txt 파일을 열어본 뒤 수집 여부를 결정.
    예) http://naver.com/robots.txt

 

 

  crawling 분쟁

  • 후발주자가 선행 주자를 빨리 따라잡기 위해 불법으로 데이터를 가져오는 행위
  • ‘잡코리아’ vs. ‘사람인’ 
  • ‘야놀자’ vs ‘여기어때’

'데이터 분석 > 웹 스크래핑' 카테고리의 다른 글

04. Web 구성 요소 - 3  (0) 2023.10.25
03. Web 구성 요소 - 2  (0) 2023.10.24
02. Web 구성 요소 - 1  (0) 2023.10.24

관련글 더보기

댓글 영역