본문 바로가기
블로그 이야기

크롤링(Crawling)과 색인(Indexing) 개념 알아보기

by ┻ⓢⅢⓢⅢⓢⅢ┯┎╀ 2021. 6. 27.

블로그 등에 인터넷 상에 글을 쓰면 다른 누군가가 검색을 통해 내 블로그를 방문하여 내가 쓴 글을 읽게 됩니다.

이러한 과정에서 가장 중요한 것이 크롤링과 색인입니다. 오늘은 비슷하면서도 다른 이 두 가지 개념에 대해 알아보겠습니다.

 

 

크롤링(Crawling)

블로그를 개설하고 많은 분들이 가장 먼저 하는 작업 중에 하나가 '구글 서치콘솔'이나 '네이버 웹마스터도구'에 내 블로그의 존재를 알리는 것입니다. 보통 사이트맵(sitemap) 등록을 통해 이 작업을 합니다.

 

그리고 구글의 경우 구글봇이라고 불리는 크롤러(crawler, 크롤링하는 소프트웨어)가 앞서 등록된 블로그 사이트맵을 읽거나, 다른 여러 가지 방법을 통해 내가 작성한 글의 URL을 찾아내는 과정을 거칩니다.

※ 크롤러는 스파이더(spider), 봇(bot), 지능 에이전트라고 불립니다.

 

'크롤링'은 이러한 신규 또는 업데이트된 웹페이지를 찾는 프로세스(과정)를 말합니다.

 

 

 

 

색인(Indexing)

구글봇과 같은 크롤러가 크롤링을 통해 파악된 웹페이지에 관한 데이터를 검색 엔진 서버로 가져오게 됩니다. 그리고 각 웹페이지의 콘텐츠나 위치(URL)를 저장하는 하는데 이 과정을 '색인'이라고 합니다. 

 

이러한 색인의 과정을 꼭 거친 후에, 구글이나 네이버와 같은 검색엔진에서 내가 작성한 글이 등록되어 다른 사람들이 검색을 통해 내 블로그에 유입될 수 있는 것입니다.

 

댓글