Robots.txt 解釋

更新時間:2022-07-26 / 文章作者:Jerry Low

robots.txt 文件是一個包含搜索引擎爬蟲指令的簡單文本文檔。 它告訴他們要抓取哪些頁面以及要避免哪些頁面。 這就像機器人的標誌,說:“來這裡了解使用該網站所需的規則。”

這些文件的目的是幫助搜索引擎確定如何最好地抓取您的網站。 這有助於減輕機器人和服務器的負擔。 畢竟,不必要的數據請求不會以有意義的方式使任何人受益。

例如,沒有理由 Googlebot的 (或任何其他機器人)提取除您博客上的最新帖子或已獲得更新的帖子之外的任何內容。

Robots.txt 文件的工作原理

了解其工作原理的最簡單方法是將您的網站視為您家中的客人。 你有所有這些你想在牆上炫耀的東西,但你不希望客人徘徊和触摸東西。 所以,你告訴他們:“嘿! 請遠離這個房間。”

這就是 robots.txt 文件的作用——它告訴搜索引擎他們應該去哪裡(以及不應該去哪裡)。 您可以通過遵循一些預定義規則的簡單指令來實現這一奇蹟。

每個網站只能有一個 robots.txt 文件,並且必須遵循該確切名稱 - 不多也不少。

我需要 Robots.txt 文件嗎?

簡短的回答是肯定的。 您的網站上應該有一個 robots.txt 文件。

更長的答案是你需要知道如何 搜索引擎機器人 將抓取您的網站並將其編入索引,然後相應地編寫您的 robots.txt 文件。

除了防止垃圾郵件發送者和黑客掌握敏感信息之外,擁有結構合理且維護得當的 robots.txt 文件還有助於提高您的網站在搜索引擎結果中的排名。

相關讀物

如何構建您的 Robots.txt 文件

robots.txt 文件最初是一個簡單的空白文本文檔。 這意味著您可以使用像 MS Notepad 這樣的純文本編輯器這樣簡單的工具來創建一個。 您也可以使用您的文本編輯器 虛擬主機 控制面板,但在您的計算機上創建文件更安全。

創建文檔後,就可以開始填寫說明了。 你需要做兩件事才能做到這一點。 首先,您必須知道希望 robots.txt 文件告訴機器人甚麼。 接下來,您需要了解如何使用機器人可以理解的指令。

第 1 部分:Robots.txt 文件可以做什麼

  • 允許或阻止特定機器人
  • 控制機器人可以抓取的文件
  • 控制機器人可以爬取的目錄
  • 控制對圖像的訪問
  • 定義您的站點地圖

還有更多。

第 2 部分:了解 Robots.txt 語法的工作原理

許多人在查看 robots.txt 樣本時會感到困惑,因為內容看起來像是技術術語。 這對普通人來說是相當準確的。 理解 robots.txt 的關鍵是像計算機一樣思考。

計算機需要指令才能工作,並根據指令處理事物。 機器人也是如此。 他們一次讀一行指令。 這些行中的每一行都必須遵循特定的格式。

以下是 robots.txt 文件的一些常用命令;

推薦碼行動
用戶代理:Googlebot-newsAllow:/
用戶代理:*不允許:/
只允許 Google 的新聞機器人抓取您的網站
用戶代理:Googlebot-ImageDisallow:/images/dogs.jpg停止在 Google 圖片搜索結果中顯示 Smiley.jpg 圖片。
用戶代理:GooglebotDisallow:/*.gif$阻止 Google 的機器人抓取任何帶有 .gif 擴展名的圖像文件。

您可以在以下位置獲取更全面的 robots.txt 文件說明列表 Google的開發人員文檔.

Facebook 的 Robots.txt 文件。
例如,這裡是 Facebook 的 Robots.txt 文件。
Google 的 Robots.txt 文件。
這是 Google 的 Robots.txt 文件。

Robots.txt 的最佳實踐

請按照 robots.txt 的說明進行操作,否則您的網站可能會出現問題。 (資源: 谷歌)

雖然在某些方面,robots.txt 允許您自定義機器人行為,但它的工作要求可能非常嚴格。 例如,您必須將 robots.txt 文件放在您網站的根目錄中。 這通常意味著 public_html 或 www。

雖然有些規則是可以協商的,但最好了解一些標準指南;

觀看您的訂單

robots.txt 文件中的指令具有順序優先級。 這意味著衝突的指令將默認為文件中的第一個實例。 這就像比較州與聯邦法院的裁決。

詳細

創建說明時,請盡可能具體地使用您的參數。 機器人不協商,所以準確地告訴他們需要發生什麼。

子域是可能的

但是,每個子域中 robots.txt 文件的規則將僅適用於文件所在的子域。

檢查文件

構建和轉儲 robots.txt 文件可能會導致災難。 在放任自流之前,確保您添加的規則或說明有效。

不要Noindex任何東西

谷歌表示不要在 robots.txt 中這樣做; 因此它必須是真的。

最後。。。

嚴格來說,您不需要 robots.txt 文件。 對於沒有大量內容要抓取的小型或靜態網站尤其如此。 但是,較大的網站會發現 robots.txt 在減少網絡爬蟲丟失的資源方面不可或缺。 它使您可以更好地控制機器人如何查看您的網站。

閱讀更多

關於Jerry Low

WebHostingSecretRevealed.net (WHSR) 的創始人 - 他的托管評論文受到 100,000 用戶的信任和使用。 在網絡託管、聯盟營銷和 SEO 方面擁有超過 15 年的經驗。 ProBlogger.net、Business.com、SocialMediaToday.com 等的貢獻者。