Objaśnienie pliku robots.txt

Zaktualizowano: 2022-07-26 / Artykuł autorstwa: Jerry Low

Plik robots.txt to prosty dokument tekstowy zawierający instrukcje robotów wyszukiwarek. Mówi im, które strony mają indeksować, a których unikać. To jak znak dla botów mówiący: „przyjdź tutaj po zasady, których potrzebujesz, aby korzystać z tej witryny”.

Celem tych plików jest pomoc wyszukiwarkom w określeniu najlepszego sposobu indeksowania Twojej witryny. Służy to zmniejszeniu obciążenia bota i serwera. W końcu niepotrzebne prośby o dane nie przyniosą nikomu znaczących korzyści.

Na przykład nie ma powodu, aby Googlebot (lub inne boty), aby wyświetlić wszystko poza najnowszym postem na Twoim blogu lub postami, które otrzymały aktualizację.

Jak działa plik Robots.txt

Najprostszym sposobem na zrozumienie, jak to działa, jest myślenie o swojej witrynie jako gościu w domu. Masz wszystkie te rzeczy, które chcesz pokazać na swoich ścianach, ale nie chcesz, aby goście wędrowali i dotykali rzeczy. Więc mówisz im: „Hej! Nie zbliżaj się do tego pokoju, proszę.

To właśnie robi plik robots.txt – mówi wyszukiwarkom, gdzie powinny się udać (a gdzie nie powinny). Możesz osiągnąć ten cud dzięki prostym instrukcjom, które są zgodne z pewnymi wcześniej zdefiniowanymi zasadami.

Każda witryna może mieć tylko jeden plik robots.txt i musi mieć dokładnie taką nazwę – nie więcej, nie mniej.

Czy potrzebuję pliku Robots.txt?

Krótka odpowiedź brzmi: tak. Powinieneś mieć plik robots.txt w swojej witrynie.

Dłuższa odpowiedź brzmi, że musisz wiedzieć jak roboty wyszukiwarek przeszuka i zindeksuje Twoją witrynę, a następnie odpowiednio zapisze plik robots.txt.

Oprócz ochrony poufnych informacji przed spamerami i hakerami posiadanie odpowiednio ustrukturyzowanego i obsługiwanego pliku robots.txt może pomóc poprawić pozycję witryny w wynikach wyszukiwania.

Odpowiednie odczyty

Jak zbudować plik Robots.txt

Plik robots.txt zaczyna się jako prosty, pusty dokument tekstowy. Oznacza to, że możesz go utworzyć za pomocą tak prostego narzędzia, jak zwykły edytor tekstu, taki jak Notatnik MS. Możesz także użyć edytora tekstu w swoim hosting panelu sterowania, ale tworzenie pliku na komputerze jest bezpieczniejsze.

Po utworzeniu dokumentu czas zacząć wypełniać go instrukcjami. Potrzebujesz do tego dwóch rzeczy. Po pierwsze, musisz wiedzieć, co plik robots.txt ma informować boty. Następnie musisz zrozumieć, jak korzystać z instrukcji, które boty mogą zrozumieć.

Część 1: Co może zrobić plik Robots.txt

  • Zezwalaj lub blokuj określone boty
  • Kontroluj pliki, które mogą indeksować boty
  • Kontroluj katalogi, które mogą indeksować boty
  • Kontroluj dostęp do obrazów
  • Zdefiniuj mapę witryny

I więcej.

Część 2: Zrozumienie, jak działa składnia pliku Robots.txt

Wiele osób jest zdezorientowanych, patrząc na próbki pliku robots.txt, ponieważ treść wydaje się być technicznym żargonem. To dość dokładne dla przeciętnego człowieka. Kluczem do zrozumienia pliku robots.txt jest myślenie jak komputer.

Komputery potrzebują instrukcji do pracy i przetwarzają rzeczy na ich podstawie. To samo dotyczy botów. Czytają instrukcje po jednej linijce na raz. Każda z tych linii musi mieć określony format.

Oto kilka typowych poleceń dotyczących pliku robots.txt;

KodDziałania
Klient użytkownika: Googlebot-newsAllow: /
Klient użytkownika: *Nie zezwalaj: /
Zezwalaj na indeksowanie Twojej witryny tylko robotowi Google News
Klient użytkownika: Googlebot-ImageDisallow: /images/dogs.jpgZatrzymaj wyświetlanie obrazu smiley.jpg w wynikach wyszukiwania grafiki Google.
Klient użytkownika: GooglebotDisallow: /*.gif$Zablokuj botowi Google indeksowanie dowolnego pliku graficznego z rozszerzeniem .gif.

Pełniejszą listę instrukcji dotyczących pliku robots.txt można uzyskać na Dokumentacja programisty Google.

Plik Robots.txt Facebooka.
Na przykład tutaj jest Robots.txt Facebooka plik.
Plik Robots.txt firmy Google.
I oto jest Robots.txt firmy Google plik.

Najlepsze praktyki dotyczące pliku Robots.txt

Postępuj zgodnie z instrukcjami dotyczącymi pliku robots.txt, w przeciwnym razie sytuacja może się nie udać w Twojej witrynie. (Źródło: Google)

Chociaż pod pewnymi względami plik robots.txt pozwala dostosować zachowanie botów, wymagania, aby to działało, mogą być dość sztywne. Na przykład musisz umieścić plik robots.txt w katalogu głównym swojej witryny. Ogólnie oznacza to public_html lub www.

Chociaż niektóre zasady można negocjować, najlepiej jest zrozumieć niektóre standardowe wytyczne;

Oglądaj swoje zamówienie

Instrukcje w pliku robots.txt mają priorytet sekwencyjny. Oznacza to, że sprzeczne instrukcje zostaną domyślnie ustawione na pierwszym wystąpieniu w pliku. To jak porównanie orzeczenia sądu stanowego z orzeczeniem sądu federalnego.

Bądź szczegółowy

Tworząc instrukcje, podawaj parametry tak szczegółowo, jak to tylko możliwe. Boty nie negocjują, więc powiedz im dokładnie, co ma się wydarzyć.

Subdomeny są możliwe

Jednak reguły dotyczące pliku robots.txt w każdej subdomenie będą miały zastosowanie tylko do subdomeny, w której znajduje się plik.

Sprawdź plik

Tworzenie i zrzucanie pliku robots.txt może być receptą na katastrofę. Upewnij się, że zasady lub instrukcje, które dodajesz, działają, zanim zaczniesz je puszczać.

Nie indeksuj niczego

Google mówi, aby nie robić tego w robots.txt; dlatego musi to być prawda.

Final Thoughts

Ściśle mówiąc, nie potrzebujesz pliku robots.txt. Dotyczy to zwłaszcza mniejszych lub statycznych witryn internetowych, które nie mają dużej ilości treści do zindeksowania. Jednak większe witryny uznają plik robots.txt za niezbędny do zmniejszenia utraty zasobów przez roboty sieciowe. Daje to znacznie lepszą kontrolę nad tym, jak boty przeglądają Twoją witrynę.

Przeczytaj więcej

O Jerry Low

Założyciel WebHostingSecretRevealed.net (WHSR) - przegląd hostingu zaufany i używany przez użytkowników 100,000. Więcej niż doświadczenie 15 w hostingu, marketingu afiliacyjnym i SEO. Współpracuje z ProBlogger.net, Business.com, SocialMediaToday.com i innymi.