네이버 서치어드바이저에 적합한 웹사이트 robot.txt 만드는 방법

⚠️ 이 글은 AI로 생성된 글입니다. ⚠️

robots.txt는 검색 로봇이 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. IETF는 2022년 9월에 이를 표준화한 문서를 발행하였습니다.

robots.txt 파일은 사이트의 루트 디렉터리에 위치해야 하며, 로봇 배제 표준을 따르는 일반 텍스트 파일 형식으로 작성해야 합니다. 네이버 검색로봇은 robots.txt 규칙을 준수합니다. 만약 사이트 루트 디렉터리에 robots.txt 파일이 없다면 모든 콘텐츠가 수집 가능하다고 간주합니다.

하지만, 특정 웹 마스터와의 수집 조건 협약이 있는 경우, 광고주 정보 취득, 링크 미리보기 생성 등 특수 용도의 로봇은 robots.txt 규칙을 준수하지 않을 수 있습니다. 따라서 외부에 노출되어서는 안 되는 콘텐츠는 로그인 기능 또는 다른 차단 방법으로 보호해야 합니다.

robots.txt 위치

robots.txt 파일은 반드시 사이트의 루트 디렉터리에 위치해야 하며 텍스트 파일(text/plain)로 접근 가능해야 합니다.

예시: http://www.example.com/robots.txt

HTTP 응답코드에 따른 처리

robots.txt 파일에 네이버 검색로봇이 접근했을 때는 정상적인 2xx 응답 코드를 반환해야 합니다. 검색로봇은 HTTP 응답 코드에 따라 아래와 같이 동작합니다:

응답 코드 그룹	설명
2xx	정상 응답: 로봇 배제 표준 규칙을 해석하여 사용합니다. robots.txt가 HTML 문서로 반환되면 유효한 규칙이 있어도 “모두 허용”으로 해석될 수 있으므로, 일반 텍스트 파일 형식으로 작성해야 합니다.
3xx	리다이렉션: HTTP 리다이렉트를 최대 5회까지 허용하며, 그 이상 발생 시 “모두 허용”으로 해석합니다. HTML 및 JavaScript를 통한 리다이렉트는 해석하지 않습니다.
4xx	클라이언트 오류: “모두 허용”으로 해석됩니다.
5xx	서버 오류: “모두 허용하지 않음”으로 해석됩니다. 단, 이전에 정상 수집된 robots.txt 규칙이 있다면 일시적으로 사용될 수 있습니다.

robots.txt 규칙 예제

robots.txt 규칙은 같은 호스트, 프로토콜, 포트 번호 하위의 페이지에만 유효합니다. 예를 들어, http://www.example.com/robots.txt 규칙은 http://example.com/ 및 https://example.com/에는 적용되지 않습니다.

예제 1: 네이버 검색로봇만 수집 허용

User-agent: *
Disallow: /
User-agent: Yeti
Allow: /

예제 2: 모든 검색엔진 수집 허용

User-agent: *
Allow: /

예제 3: 루트 페이지만 수집 허용

User-agent: *
Disallow: /
Allow: /$

예제 4: 특정 디렉터리 수집 비허용

User-agent: Yeti
Disallow: /private*/

예제 5: 모든 수집 비허용 (권장하지 않음)

User-agent: *
Disallow: /

파비콘(favicon) 수집 허용

검색 로봇은 파비콘을 웹 콘텐츠의 일부로 간주합니다. robots.txt 규칙이 파비콘 수집을 방해하지 않도록 설정하거나, 기본적으로 수집을 허용해야 합니다.

자바스크립트 및 CSS 파일 접근 허용

검색 로봇은 HTML 문서뿐만 아니라 포함된 자바스크립트와 CSS 파일에도 접근하려고 합니다. 이를 허용하지 않으면 검색 결과에서 문서가 의도와 다르게 해석될 수 있습니다. 따라서 관련 리소스 URL에 동일한 규칙을 적용하거나 기본적으로 수집을 허용해야 합니다.

sitemap.xml 지정

robots.txt 파일에 sitemap.xml 위치를 명시하면 검색 로봇이 사이트 콘텐츠를 더 효과적으로 수집할 수 있습니다.

더 자세한 정보 바로 보기

User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml

웹마스터 도구 활용

웹마스터 도구를 사용하면 robots.txt 파일을 쉽게 관리할 수 있습니다. 주요 기능은 다음과 같습니다:

robots.txt 수집 및 검증: 수정된 robots.txt 파일을 빠르게 검색로봇에 알리거나 수집 가능 여부를 테스트할 수 있습니다.
robots.txt 간단 생성: 간단하게 생성한 파일을 다운로드하여 루트 디렉터리에 업로드한 후 수집 요청을 실행하면 네이버 검색로봇이 인식합니다.