Robots.txtの説明

更新日:2022-07-26 /記事:Jerry Low

robots.txtファイルは、検索エンジンのクローラーの指示を含む単純なテキストドキュメントです。 クロールするページと避けるべきページを指示します。 これは、「このWebサイトを使用するために必要なルールについてはここに来てください」というボットのサインのようなものです。

これらのファイルの目的は、検索エンジンがサイトをクロールする最善の方法を決定するのを支援することです。 これは、ボットとサーバーの負担を軽減するのに役立ちます。 結局のところ、データに対する不必要な要求は、意味のある方法で誰にも利益をもたらしません。

たとえば、理由はありません Googlebotが (または他のボット)ブログの最新の投稿または更新された投稿以外のものをプルアップします。

Robots.txtファイルのしくみ

それがどのように機能するかを理解する最も簡単な方法は、あなたのウェブサイトをあなたの家のゲストとして考えることです。 あなたはあなたがあなたの壁に見せびらかしたいこれらすべてのものを持っています、しかしあなたはゲストが物事をさまよったり触れたりしたくないです。 それで、あなたは彼らにこう言います。 この部屋には近づかないでください。」

これがrobots.txtファイルの機能です。検索エンジンにどこに行くべきか(そしてどこに行くべきでないか)を伝えます。 この奇跡は、いくつかの事前定義されたルールに従う簡単な指示で達成できます。

各ウェブサイトにはrobots.txtファイルをXNUMXつだけ含めることができ、その正確な名前に従う必要があります。それ以上でもそれ以下でもありません。

Robots.txtファイルが必要ですか?

簡単な答えはイエスです。 Webサイトにrobots.txtファイルが必要です。

より長い答えは、あなたが方法を知る必要があるということです 検索エンジンボット サイトをクロールしてインデックスを作成し、それに応じてrobots.txtファイルを書き込みます。

機密情報をスパマーやハッカーの手に渡さないようにするだけでなく、robots.txtファイルを適切に構造化して維持することで、検索エンジンの結果でのサイトのランキングを向上させることができます。

関連する読み取り

Robots.txtファイルを作成する方法

robots.txtファイルは、単純な空白のテキストドキュメントとして始まります。 つまり、MSメモ帳のようなプレーンテキストエディタと同じくらい簡単なツールで作成できます。 でテキストエディタを使用することもできます ウェブホスティング コントロールパネルですが、コンピュータ上でファイルを作成する方が安全です。

ドキュメントを作成したら、指示を入力し始めます。 これを行うには、XNUMXつのことが必要です。 まず、robots.txtファイルでボットに何を伝えたいかを知っておく必要があります。 次に、ボットが理解できる指示の使用方法を理解する必要があります。

パート1:Robots.txtファイルでできること

  • 特定のボットを許可またはブロックする
  • ボットがクロールできるファイルを制御する
  • ボットがクロールできるディレクトリを制御する
  • 画像へのアクセスを制御する
  • サイトマップを定義する

そして、もっと。

パート2:Robots.txt構文の仕組みを理解する

robots.txtのサンプルを見ると、内容が専門用語のように見えるため、多くの人が混乱します。 それは平均的な人にとってはかなり正確です。 robots.txtを理解するための鍵は、コンピューターのように考えることです。

コンピュータは動作するために指示を必要とし、それらに基づいて物事を処理します。 ボットについても同じことが言えます。 彼らは一度にXNUMX行ずつ指示を読みます。 これらの各行は、特定の形式に従う必要があります。

robots.txtファイルの一般的なコマンドは次のとおりです。

コードアクション
ユーザーエージェント:Googlebot-newsAllow:/
ユーザーエージェント:*許可しない:/
Googleのニュースボットにのみウェブサイトのクロールを許可する
ユーザーエージェント:Googlebot-ImageDisallow:/images/dogs.jpgsmiley.jpg画像がGoogle画像検索結果に表示されないようにします。
ユーザーエージェント:GooglebotDisallow:/*.gif$Googleのボットが拡張子が.gifの画像ファイルをクロールしないようにブロックします。

robots.txtファイルの手順のより包括的なリストは次のURLで入手できます。 Googleの開発者向けドキュメント.

FacebookのRobots.txtファイル。
たとえば、ここにあります FacebookのRobots.txt ファイル。
GoogleのRobots.txtファイル。
そしてここに GoogleのRobots.txt ファイル。

Robots.txtのベストプラクティス

robots.txtの指示に従ってください。そうしないと、Webサイトがうまく機能しない可能性があります。 (ソース: Googleポリシー )

いくつかの点で、robots.txtを使用するとボットの動作をカスタマイズできますが、これが機能するための要件はかなり厳格な場合があります。 たとえば、robots.txtファイルをWebサイトのルートディレクトリに配置する必要があります。 これは通常、public_htmlまたはwwwを意味します。

一部のルールは交渉可能ですが、いくつかの標準的なガイドラインを理解するのが最善です。

ご注文をご覧ください

robots.txtファイルの指示は順番に優先されます。 つまり、競合する命令はデフォルトでファイルの最初のインスタンスになります。 これは、州と連邦裁判所の判決を比較するようなものです。

詳細に

命令を作成するときは、パラメータをできるだけ具体的にしてください。 ボットはネゴシエートしないので、何が必要かを正確に伝えます。

サブドメインは可能です

ただし、各サブドメインのrobots.txtファイルのルールは、ファイルが存在するサブドメインにのみ適用されます。

ファイルを確認してください

robots.txtファイルを作成してダンプすることは、災害のレシピになる可能性があります。 物事を緩める前に、追加するルールまたは指示が機能していることを確認してください。

何もインデックスを付けないでください

Googleはrobots.txtでそれをしないように言っています。 したがって、それは真実でなければなりません。

最終的な考え

厳密に言えば、robots.txtファイルは必要ありません。 これは、クロールするコンテンツが多くない小規模または静的なWebサイトに特に当てはまります。 ただし、大規模なWebサイトでは、Webクローラーに失われるリソースを削減するためにrobots.txtが不可欠であることがわかります。 ボットがWebサイトをどのように表示するかをより適切に制御できます。

続きを読む

ジェリーローについて

WebHostingSecretRevealed.net(WHSR)の創設者 - 100,000のユーザによって信頼され、使用されているホスティングレビュー。 15年以上のWebホスティング、アフィリエイトマーケティング、およびSEOの経験。 ProBlogger.net、Business.com、SocialMediaToday.comなどへの貢献者。