사이트 분석 도구로 웹 사이트 크롤링하기

등록일시: 2010-02-12 18:12,  수정일시: 2013-11-25 11:55
조회수: 9,023
이 문서는 IIS 기술을 널리 알리고자 하는 개인적인 취지로 제공되는 번역문서입니다. 이 문서에 대한 모든 저작권은 마이크로소프트에 있으며 요청이 있을 경우 언제라도 게시가 중단될 수 있습니다. 번역 내용에 오역이 존재할 수 있고 주석은 번역자 개인의 의견일 뿐이며 마이크로소프트는 이에 관한 어떠한 보장도 하지 않습니다. 번역이 완료된 이후에도 대상 제품 및 기술이 개선되거나 변경됨에 따라 원문의 내용도 변경되거나 보완되었을 수 있으므로 주의하시기 바랍니다.

웹 사이트 콘텐츠와 구조, 그리고 URL들을 검색엔진 크롤러에 최적화시키기 위한 목적으로 분석하려는 경우, IIS 검색엔진 최적화 툴킷이 제공해주는 사이트 분석(Site Analysis) 도구를 유용하게 이용할 수 있습니다. 뿐만 아니라 사이트 분석 도구를 활용해서 웹 사이트 이용자에게 나쁜 인상을 심어줄 수 있는 웹 사이트 콘텐츠의 보편적인 문제점을 발견하거나 수정할 수도 있습니다. 그리고, 사이트 분석 도구에는 공개적으로 접근 가능한 웹 사이트의 모든 링크와 리소스에 접근해서 다운로드하고 분석하기 위한 용도의 웹 크롤러가 포함되어 있습니다.

웹 사이트 크롤링

웹 사이트 분석의 첫 번째 단계는 해당 웹 사이트가 공개적으로 노출하는 모든 리소스 및 URL들을 크롤링하는 것입니다. 이를 위해서 새로운 사이트 분석을 생성하면 사이트 분석 도구가 크롤링 작업을 수행합니다. 사이트 분석 도구를 이용해서 특정 웹 사이트를 크롤링하고 분석에 필요한 데이터들을 수집하려면, 다음 단계들을 따르십시오:

  1. 먼저, 시작 > 모든 프로그램 > IIS 7.0 Extensions 메뉴에서 "Search Engine Optimization (SEO) Toolkit" 아이콘을 클릭해서 SEO 도구를 실행합니다.
  2. 그러면, 자동적으로 SEO 메인 페이지가 나타날 것입니다.
  3. 이제, SEO 메인 페이지의 Site Analysis 섹션에서 "Create a new analysis" 작업 링크를 클릭합니다.
  4. 그리고, "New Analysis" 대화 상자에서, 분석 보고서에 사용될 기억하기 쉬운 이름을 입력한 다음, 크롤러가 작업을 시작할 URL을 지정합니다.

    이 때, 크롤러가 작업을 시작할 URL에는 로컬 머신에 존재하는 웹 사이트뿐만 아니라, 인터넷에서 공개적으로 접근가능한 모든 웹 사이트를 지정해서 크롤링 작업을 수행할 수 있습니다. "New Analysis" 대화 상자에 대한 더 상세한 정보들은 본문의 뒷부분에서 설명할 웹 크롤러 설정 섹션을 참고하시기 바랍니다.
  5. 매개변수들을 모든 지정했으면 OK 버튼을 클릭해서 분석을 시작합니다:

    분석 과정 중에 다음과 같은 두 가지 숫자 정보가 제공됩니다:
    • Links Processed - 웹 크롤러에 의해 크롤되고 다운로드 된 모든 링크들의 갯수를 나타냅니다.
    • Total Links - 웹 사이트를 크롤링하는 과정 중 발견된 모든 링크들의 갯수를 나타냅니다.

웹 크롤러는 항상 클라이언트 머신에서 실행된다는 사실을 기억하십시오. 만약, 원격 IIS 서버에 연결해서 새로운 분석을 시작하면 웹 크롤러는 원격 IIS 서버에 연결한 머신의 IIS 관리자 프로세스(InetMgr.exe)에 호스트될 것입니다. 더불어, 수집된 모든 데이터와 캐시된 사이트의 콘텐츠 역시 클라이언트 머신의 파일 시스템에 보관됩니다.

웹 사이트 크롤링과 분석이 마무리되면 분석 요약 뷰가 나타납니다. 웹 사이트의 SEO와 콘텐츠 관련 문제점을 분석하는 방법에 관한 자세한 정보들은 Using the Site Analysis Reports 기사를 참고하시기 바랍니다.

웹 크롤러 설정

분석을 위해서 새로 웹 크롤링을 시작할 때 지정할 수 있는 그 밖의 매개변수들은 다음과 같습니다:

  • Maximum Number of Links
    웹 사이트를 크롤링하는 동안 얼마나 많은 링크들을 처리하고 다운로드 할 수 있는지 지정합니다. 여기서 링크란 페이지의 마크업에 존재하는 모든 종류의 URL들을 뜻하며, 하이퍼링크를 비롯해서 이미지 파일, CSS 파일, 그리고 자바스크립트 파일 등에 대한 참조를 포함합니다. 이 값이 크면 보고서 파일의 크기가 커지고 크롤링 처리 수행 시간이 보다 길어지게 됩니다.
  • Maximum Download Size per Link
    각각의 링크마다 얼마나 큰 크기(Kilobytes)의 콘텐츠를 다운로드 할 수 있는지 지정합니다. 이 값이 크면 사이트 분석 도구가 로컬 파일 시스템에 저장하는 캐시 콘텐츠의 크기가 증가하게 됩니다.
  • Ignore 'nofollow' attribute
    일반적으로 'nofollow' 어트리뷰트와 'nofollow' 메타 태그는 검색엔진 크롤러에게 특정 페이지 자체와 그 페이지에 존재하는 모든 하이퍼링크들을 크롤링하지 말것을 지시할 때 사용됩니다. 가령, 블로그의 코멘트를 스팸으로부터 보호하기 위한 목적으로 이 방법이 사용되곤 합니다. 만약, 웹 사이트의 특정 페이지에 이 어트리뷰트가 지정되어 있다면, 해당 페이지에 존재하는 모든 하이퍼링크들은 사이트 분석 과정에 포함 및 분석되지 않습니다. 다만, 이미지 파일, CSS 파일, 그리고 자바스크립트 파일 관련 링크들은 여전히 처리 대상에 포한된다는 점에 주의하십시오. 이 어트리뷰트가 지정된 하이퍼링크들까지 모두 포함해서 분석하려면 사이트 분석 데이터를 수집할 때 'nofollow' 어트리뷰트와 메타 태그를 무시하도록 이 설정을 지정하십시오.
  • Ignore 'noindex' meta tag
    일반적으로 'noindex' 메타 태그는 검색엔진 크롤러에게 특정 페이지의 콘텐츠를 인덱스하지 말것을 지시할 때 사용됩니다. 이 메타 태그가 지정된 웹 사이트 페이지들은 페이지의 콘텐츠에 존재하는 어떠한 위배사항도 검색되지 않습니다. 이 메타 태그가 지정된 페이지들의 콘텐츠를 분석하려면 사이트 분석 데이터를 수집하고 처리할 때 'noindex' 메타 태그를 무시하도록 이 설정을 지정하십시오.
  • External Links
    이 드롭다운 리스트는 웹 사이트에 서브 도메인이 존재한다거나 사이트의 특정 디렉터리를 분석하고자 할 때 이용할 수 있습니다. 이 설정은 서브 도메인을 외부 또는 내부 링크로 취급할지 여부를 비롯해서, 하위 디렉터리를 외부 또는 내부 링크로 취급할지 여부를 지정합니다.

그 밖에도 다음과 같은 웹 크롤러에 대한 일반적인 설정을 구성할 수 있습니다:

  • Maximum Number of Concurrent Requests
    웹 크롤러가 동시에 얼마나 많은 요청을 만들수 있는지를 지정합니다.
  • Reports Location
    크롤된 데이터와 웹 사이트 콘텐츠가 저장될 로컬 파일 시스템상의 디렉터리를 지정합니다.

사이트 분석 웹 크롤러 차단

사이트 분석 웹 크롤러가 만들어내는 모든 HTTP 요청에는 다음 값으로 설정된 "user-agent" HTTP 헤더가 포함되어 있습니다:

"iisbot/1.0 (+http://www.iis.net/iisbot.html)"

그리고, 이 사이트 분석 웹 크롤러는 인터넷 검색엔진 배제표준을 충실히 따르고 있습니다. 결과적으로, 이 말은 사이트 분석 웹 크롤러에 의한 웹 사이트의 크롤링을 차단하기 위해서 robots.txt 파일을 이용할 수 있다는 뜻입니다. 가령, 다른 사람들이 여러분의 웹 사이트를 대상으로 사이트 분석을 수행하는 것을 차단하고 싶을 수도 있습니다.

웹 사이트가 사이트 분석 웹 크롤러에 의해 크롤링되는 것을 막고 싶다면, 웹 사이트의 루트 디렉터리에 위치한 robots.txt 파일의 마지막 부분에 다음 내용을 추가하십시오:

User-Agent: iisbot
Disallow: /

요약

본문에서는 웹 사이트를 크롤링하고 콘텐츠와 구조 데이터를 수집하기 위해서 사이트 분석 도구를 구성해 봤습니다. 사이트 분석 보고서를 통해서 수집된 데이터를 분석하는 방법에 대한 보다 자세한 정보들은 사이트 분석 보고서 이해하기 기사를 참고하시기 바랍니다.