關於Jerry Low
WebHostingSecretRevealed.net (WHSR) 的創始人 - 他的托管評論文受到 100,000 用戶的信任和使用。 在網絡託管、聯盟營銷和 SEO 方面擁有超過 15 年的經驗。 ProBlogger.net、Business.com、SocialMediaToday.com 等的貢獻者。
robots.txt 文件是一個包含搜索引擎爬蟲指令的簡單文本文檔。 它告訴他們要抓取哪些頁面以及要避免哪些頁面。 這就像機器人的標誌,說:“來這裡了解使用該網站所需的規則。”
這些文件的目的是幫助搜索引擎確定如何最好地抓取您的網站。 這有助於減輕機器人和服務器的負擔。 畢竟,不必要的數據請求不會以有意義的方式使任何人受益。
例如,沒有理由 Googlebot的 (或任何其他機器人)提取除您博客上的最新帖子或已獲得更新的帖子之外的任何內容。
了解其工作原理的最簡單方法是將您的網站視為您家中的客人。 你有所有這些你想在牆上炫耀的東西,但你不希望客人徘徊和触摸東西。 所以,你告訴他們:“嘿! 請遠離這個房間。”
這就是 robots.txt 文件的作用——它告訴搜索引擎他們應該去哪裡(以及不應該去哪裡)。 您可以通過遵循一些預定義規則的簡單指令來實現這一奇蹟。
每個網站只能有一個 robots.txt 文件,並且必須遵循該確切名稱 - 不多也不少。
簡短的回答是肯定的。 您的網站上應該有一個 robots.txt 文件。
更長的答案是你需要知道如何 搜索引擎機器人 將抓取您的網站並將其編入索引,然後相應地編寫您的 robots.txt 文件。
除了防止垃圾郵件發送者和黑客掌握敏感信息之外,擁有結構合理且維護得當的 robots.txt 文件還有助於提高您的網站在搜索引擎結果中的排名。
robots.txt 文件最初是一個簡單的空白文本文檔。 這意味著您可以使用像 MS Notepad 這樣的純文本編輯器這樣簡單的工具來創建一個。 您也可以使用您的文本編輯器 虛擬主機 控制面板,但在您的計算機上創建文件更安全。
創建文檔後,就可以開始填寫說明了。 你需要做兩件事才能做到這一點。 首先,您必須知道希望 robots.txt 文件告訴機器人甚麼。 接下來,您需要了解如何使用機器人可以理解的指令。
還有更多。
許多人在查看 robots.txt 樣本時會感到困惑,因為內容看起來像是技術術語。 這對普通人來說是相當準確的。 理解 robots.txt 的關鍵是像計算機一樣思考。
計算機需要指令才能工作,並根據指令處理事物。 機器人也是如此。 他們一次讀一行指令。 這些行中的每一行都必須遵循特定的格式。
以下是 robots.txt 文件的一些常用命令;
推薦碼 | 行動 |
---|---|
用戶代理:Googlebot-newsAllow:/ 用戶代理:*不允許:/ | 只允許 Google 的新聞機器人抓取您的網站 |
用戶代理:Googlebot-ImageDisallow:/images/dogs.jpg | 停止在 Google 圖片搜索結果中顯示 Smiley.jpg 圖片。 |
用戶代理:GooglebotDisallow:/*.gif$ | 阻止 Google 的機器人抓取任何帶有 .gif 擴展名的圖像文件。 |
您可以在以下位置獲取更全面的 robots.txt 文件說明列表 Google的開發人員文檔.
雖然在某些方面,robots.txt 允許您自定義機器人行為,但它的工作要求可能非常嚴格。 例如,您必須將 robots.txt 文件放在您網站的根目錄中。 這通常意味著 public_html 或 www。
雖然有些規則是可以協商的,但最好了解一些標準指南;
robots.txt 文件中的指令具有順序優先級。 這意味著衝突的指令將默認為文件中的第一個實例。 這就像比較州與聯邦法院的裁決。
創建說明時,請盡可能具體地使用您的參數。 機器人不協商,所以準確地告訴他們需要發生什麼。
但是,每個子域中 robots.txt 文件的規則將僅適用於文件所在的子域。
構建和轉儲 robots.txt 文件可能會導致災難。 在放任自流之前,確保您添加的規則或說明有效。
谷歌表示不要在 robots.txt 中這樣做; 因此它必須是真的。
嚴格來說,您不需要 robots.txt 文件。 對於沒有大量內容要抓取的小型或靜態網站尤其如此。 但是,較大的網站會發現 robots.txt 在減少網絡爬蟲丟失的資源方面不可或缺。 它使您可以更好地控制機器人如何查看您的網站。