Ujawnienie: WHSR jest obsługiwany przez czytnik. Kupując za pośrednictwem naszych linków, możemy otrzymać prowizję.
Objaśnienie pliku robots.txt
Zaktualizowano: 2022-07-26 / Artykuł autorstwa: Jerry Low
Plik robots.txt to prosty dokument tekstowy zawierający instrukcje robotów wyszukiwarek. Mówi im, które strony mają indeksować, a których unikać. To jak znak dla botów mówiący: „przyjdź tutaj po zasady, których potrzebujesz, aby korzystać z tej witryny”.
Celem tych plików jest pomoc wyszukiwarkom w określeniu najlepszego sposobu indeksowania Twojej witryny. Służy to zmniejszeniu obciążenia bota i serwera. W końcu niepotrzebne prośby o dane nie przyniosą nikomu znaczących korzyści.
Na przykład nie ma powodu, aby Googlebot (lub inne boty), aby wyświetlić wszystko poza najnowszym postem na Twoim blogu lub postami, które otrzymały aktualizację.
Jak działa plik Robots.txt
Najprostszym sposobem na zrozumienie, jak to działa, jest myślenie o swojej witrynie jako gościu w domu. Masz wszystkie te rzeczy, które chcesz pokazać na swoich ścianach, ale nie chcesz, aby goście wędrowali i dotykali rzeczy. Więc mówisz im: „Hej! Nie zbliżaj się do tego pokoju, proszę.
To właśnie robi plik robots.txt – mówi wyszukiwarkom, gdzie powinny się udać (a gdzie nie powinny). Możesz osiągnąć ten cud dzięki prostym instrukcjom, które są zgodne z pewnymi wcześniej zdefiniowanymi zasadami.
Każda witryna może mieć tylko jeden plik robots.txt i musi mieć dokładnie taką nazwę – nie więcej, nie mniej.
Czy potrzebuję pliku Robots.txt?
Krótka odpowiedź brzmi: tak. Powinieneś mieć plik robots.txt w swojej witrynie.
Dłuższa odpowiedź brzmi, że musisz wiedzieć jak roboty wyszukiwarek przeszuka i zindeksuje Twoją witrynę, a następnie odpowiednio zapisze plik robots.txt.
Oprócz ochrony poufnych informacji przed spamerami i hakerami posiadanie odpowiednio ustrukturyzowanego i obsługiwanego pliku robots.txt może pomóc poprawić pozycję witryny w wynikach wyszukiwania.
Plik robots.txt zaczyna się jako prosty, pusty dokument tekstowy. Oznacza to, że możesz go utworzyć za pomocą tak prostego narzędzia, jak zwykły edytor tekstu, taki jak Notatnik MS. Możesz także użyć edytora tekstu w swoim hosting panelu sterowania, ale tworzenie pliku na komputerze jest bezpieczniejsze.
Po utworzeniu dokumentu czas zacząć wypełniać go instrukcjami. Potrzebujesz do tego dwóch rzeczy. Po pierwsze, musisz wiedzieć, co plik robots.txt ma informować boty. Następnie musisz zrozumieć, jak korzystać z instrukcji, które boty mogą zrozumieć.
Część 1: Co może zrobić plik Robots.txt
Zezwalaj lub blokuj określone boty
Kontroluj pliki, które mogą indeksować boty
Kontroluj katalogi, które mogą indeksować boty
Kontroluj dostęp do obrazów
Zdefiniuj mapę witryny
I więcej.
Część 2: Zrozumienie, jak działa składnia pliku Robots.txt
Wiele osób jest zdezorientowanych, patrząc na próbki pliku robots.txt, ponieważ treść wydaje się być technicznym żargonem. To dość dokładne dla przeciętnego człowieka. Kluczem do zrozumienia pliku robots.txt jest myślenie jak komputer.
Komputery potrzebują instrukcji do pracy i przetwarzają rzeczy na ich podstawie. To samo dotyczy botów. Czytają instrukcje po jednej linijce na raz. Każda z tych linii musi mieć określony format.
Oto kilka typowych poleceń dotyczących pliku robots.txt;
Postępuj zgodnie z instrukcjami dotyczącymi pliku robots.txt, w przeciwnym razie sytuacja może się nie udać w Twojej witrynie. (Źródło: Google)
Chociaż pod pewnymi względami plik robots.txt pozwala dostosować zachowanie botów, wymagania, aby to działało, mogą być dość sztywne. Na przykład musisz umieścić plik robots.txt w katalogu głównym swojej witryny. Ogólnie oznacza to public_html lub www.
Chociaż niektóre zasady można negocjować, najlepiej jest zrozumieć niektóre standardowe wytyczne;
Oglądaj swoje zamówienie
Instrukcje w pliku robots.txt mają priorytet sekwencyjny. Oznacza to, że sprzeczne instrukcje zostaną domyślnie ustawione na pierwszym wystąpieniu w pliku. To jak porównanie orzeczenia sądu stanowego z orzeczeniem sądu federalnego.
Bądź szczegółowy
Tworząc instrukcje, podawaj parametry tak szczegółowo, jak to tylko możliwe. Boty nie negocjują, więc powiedz im dokładnie, co ma się wydarzyć.
Subdomeny są możliwe
Jednak reguły dotyczące pliku robots.txt w każdej subdomenie będą miały zastosowanie tylko do subdomeny, w której znajduje się plik.
Sprawdź plik
Tworzenie i zrzucanie pliku robots.txt może być receptą na katastrofę. Upewnij się, że zasady lub instrukcje, które dodajesz, działają, zanim zaczniesz je puszczać.
Nie indeksuj niczego
Google mówi, aby nie robić tego w robots.txt; dlatego musi to być prawda.
Final Thoughts
Ściśle mówiąc, nie potrzebujesz pliku robots.txt. Dotyczy to zwłaszcza mniejszych lub statycznych witryn internetowych, które nie mają dużej ilości treści do zindeksowania. Jednak większe witryny uznają plik robots.txt za niezbędny do zmniejszenia utraty zasobów przez roboty sieciowe. Daje to znacznie lepszą kontrolę nad tym, jak boty przeglądają Twoją witrynę.
Założyciel WebHostingSecretRevealed.net (WHSR) - przegląd hostingu zaufany i używany przez użytkowników 100,000. Więcej niż doświadczenie 15 w hostingu, marketingu afiliacyjnym i SEO. Współpracuje z ProBlogger.net, Business.com, SocialMediaToday.com i innymi.