Robots.txt 설명

업데이트: 2022-07-26 / 기사 작성자: Jerry Low

robots.txt 파일은 검색 엔진 크롤러의 지침이 포함된 간단한 텍스트 문서입니다. 크롤링할 페이지와 피해야 할 페이지를 알려줍니다. "이 웹 사이트를 사용하는 데 필요한 규칙을 보려면 여기로 오십시오."라고 말하는 봇의 표시와 같습니다.

이 파일의 목적은 검색 엔진이 사이트를 가장 잘 크롤링하는 방법을 결정하는 데 도움이 되는 것입니다. 이는 봇과 서버의 부담을 줄이는 역할을 합니다. 결국 불필요한 데이터 요청은 의미 있는 방식으로 누구에게도 도움이 되지 않습니다.

예를 들어 이유가 없습니다. Googlebot이 (또는 다른 봇) 블로그의 가장 최근 게시물 또는 업데이트된 게시물 이외의 모든 것을 가져옵니다.

Robots.txt 파일 작동 방식

작동 방식을 이해하는 가장 쉬운 방법은 웹 사이트를 집에 있는 손님으로 생각하는 것입니다. 벽에 과시하고 싶은 모든 것이 있지만 손님이 방황하고 물건을 만지는 것을 원하지 않습니다. 그래서 당신은 그들에게 이렇게 말합니다. “이봐! 제발 이 방에서 나가주세요.”

이것이 robots.txt 파일이 하는 일입니다. 검색 엔진에 이동해야 하는 위치(및 이동하지 말아야 하는 위치)를 알려줍니다. 미리 정의된 몇 가지 규칙을 따르는 간단한 지침으로 이 기적을 이룰 수 있습니다.

각 웹사이트에는 robots.txt 파일이 하나만 있을 수 있으며 그 이상도 이하도 아닌 정확한 이름을 따라야 합니다.

Robots.txt 파일이 필요합니까?

짧은 대답은 예입니다. 웹사이트에 robots.txt 파일이 있어야 합니다.

더 긴 대답은 방법을 알아야 한다는 것입니다. 검색 엔진 봇 사이트를 크롤링하고 색인을 생성한 다음 그에 따라 robots.txt 파일을 작성합니다.

스패머와 해커의 손에서 민감한 정보를 보호하는 것 외에도 robots.txt 파일을 적절하게 구성하고 유지 관리하면 검색 엔진 결과에서 사이트의 순위를 높이는 데 도움이 될 수 있습니다.

관련 읽기

Robots.txt 파일을 빌드하는 방법

robots.txt 파일은 단순한 빈 텍스트 문서로 시작됩니다. 즉, MS 메모장과 같은 일반 텍스트 편집기만큼 간단한 도구로 만들 수 있습니다. 당신은 또한 당신의 텍스트 편집기를 사용할 수 있습니다 웹 호스팅 제어판을 사용하지만 컴퓨터에서 파일을 만드는 것이 더 안전합니다.

문서를 만든 후에는 지침으로 문서를 작성할 차례입니다. 이를 위해서는 두 가지가 필요합니다. 먼저 robots.txt 파일이 봇에게 무엇을 알리고 싶은지 알아야 합니다. 다음으로 봇이 이해할 수 있는 지침을 사용하는 방법을 이해해야 합니다.

1부: Robots.txt 파일의 기능

  • 특정 봇 허용 또는 차단
  • 봇이 크롤링할 수 있는 파일 제어
  • 봇이 크롤링할 수 있는 디렉터리 제어
  • 이미지에 대한 액세스 제어
  • 사이트맵 정의

그리고 더.

2부: Robots.txt 구문의 작동 방식 이해

내용이 기술 전문 용어처럼 보이기 때문에 많은 사람들이 robots.txt 샘플을 볼 때 혼란스러워합니다. 그것은 보통 사람에게 합리적으로 정확합니다. robots.txt를 이해하는 열쇠는 컴퓨터처럼 생각하는 것입니다.

컴퓨터가 작동하려면 지침이 필요하고 이를 기반으로 작업을 처리합니다. 봇도 마찬가지입니다. 그들은 한 번에 한 줄씩 지침을 읽습니다. 각 줄은 특정 형식을 따라야 합니다.

다음은 robots.txt 파일에 대한 몇 가지 일반적인 명령입니다.

암호동작
사용자 에이전트: Googlebot-newsAllow: /
사용자 에이전트: *허용하지 않음: /
Google 뉴스 봇만 웹사이트를 크롤링하도록 허용
사용자 에이전트: Googlebot-ImageDisallow: /images/dogs.jpgGoogle 이미지 검색 결과에 스마일리.jpg 이미지가 표시되지 않도록 합니다.
사용자 에이전트: GooglebotDisallow: /*.gif$Google 봇이 확장자가 .gif인 이미지 파일을 크롤링하지 못하도록 차단합니다.

robots.txt 파일에 대한 보다 포괄적인 지침 목록은 다음에서 확인할 수 있습니다. Google 개발자 문서.

페이스북의 Robots.txt 파일.
예를 들어, 여기 페이스북의 Robots.txt 파일.
Google의 Robots.txt 파일입니다.
그리고 여기에 Google의 Robots.txt 파일.

Robots.txt에 대한 모범 사례

robots.txt에 대한 지침을 따르십시오. 그렇지 않으면 웹사이트가 제대로 작동하지 않을 수 있습니다. (원천: 구글)

어떤 면에서 robots.txt를 사용하면 봇 동작을 사용자 지정할 수 있지만 이것이 작동하기 위한 요구 사항은 매우 엄격할 수 있습니다. 예를 들어 robots.txt 파일을 웹사이트의 루트 디렉토리에 배치해야 합니다. 이는 일반적으로 public_html 또는 www를 의미합니다.

일부 규칙은 협상 가능하지만 일부 표준 지침을 이해하는 것이 가장 좋습니다.

주문 확인

robots.txt 파일의 지침은 순차적 우선 순위를 갖습니다. 즉, 충돌하는 지침은 기본적으로 파일의 첫 번째 인스턴스로 지정됩니다. 그것은 주와 연방 법원의 판결을 비교하는 것과 같습니다.

자세히

지침을 작성할 때 매개변수를 최대한 구체적으로 작성하십시오. 봇은 협상하지 않으므로 발생해야 하는 상황을 정확히 알려주세요.

하위 도메인 가능

그러나 각 하위 도메인의 robots.txt 파일에 대한 규칙은 파일이 있는 하위 도메인에만 적용됩니다.

파일 확인

robots.txt 파일을 빌드하고 덤핑하면 재앙이 발생할 수 있습니다. 작업을 느슨하게 하기 전에 추가하려는 규칙이나 지침을 확인하십시오.

아무것도 색인 생성하지 마십시오

Google은 robots.txt에서 하지 말라고 말합니다. 그러므로 그것은 사실이어야 합니다.

최종 생각

엄밀히 말하면 robots.txt 파일이 필요하지 않습니다. 크롤링할 콘텐츠가 많지 않은 소규모 또는 정적 웹 사이트의 경우 특히 그렇습니다. 그러나 더 큰 웹사이트에서는 웹 크롤러에게 손실되는 리소스를 줄이는 데 robots.txt가 필수 불가결하다는 것을 알게 될 것입니다. 봇이 웹사이트를 보는 방식을 훨씬 더 잘 제어할 수 있습니다.

더 읽기

Jerry Low 정보

WebHostingSecretRevealed.net (WHSR)의 설립자 - 100,000의 사용자가 신뢰하고 사용하는 호스팅 검토. 웹 호스팅, 제휴 마케팅 및 SEO에서 15 년 이상의 경험. ProBlogger.net, Business.com, SocialMediaToday.com 등의 기고자.