본문 바로가기

Dev.World/개발상식&언어

[그들이 쓰는 언어] 5. 크롤링(Crawling)


크롤링이란

Web Crawling.
Web Scraping 이 정식 명칭이다.
구글, 네이버 같은 포털 사이트들은 어떻게 검색 결과를 보여주는 것일까?
포탈들은 저마다 검색 엔진이라는 것을 사용해 전 세계 수많은 웹 페이지들을 방문하면서 정보들을 긁어온다.
이렇게 모은 정보들을 데이터베이스 형식으로 저장해 두었다가 사용자가 검색요청을 하면
내부적인 알고리즘에 의해 원하는 검색결과를 찾아 사용자에게 뿌려주게 된다.
이렇게 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여
검색 대상의 색인으로 포함시키는 기술을 크롤링이라고 한다.
어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서
최근 웹 검색의 중요성에 따라 발전되고 있다.

관련 용어들
웹 크롤링 : 콘텐츠를 수집하기 위해 자동으로 웹사이트를 방문하는 프로세스
웹 크롤러 : 자동으로 웹 페이지를 방문해 콘텐츠를 가져오고 URL을 추출해낸다.
웹 스파이더, 봇, 자동화 색인기라고도 불린다.
스스로 웹 사이트들을 돌아다니면서 매일 매일 업데이트 된 또는 수정된 웹 페이지들을 수집한다.

검색 엔진은 색인된 데이터를 사용자가 검색해서 사용할 수 있도록 한다.
웹사이트를 크롤링하여 애플리케이션에 이벤트나 트리거로 활용할 수 있다.
저작권 위반 사이트 감시가 가능하다.



-..-