Robots.txt erklärt

Aktualisiert: 2022-07-26 / Artikel von: Jerry Low

Die robots.txt-Datei ist ein einfaches Textdokument, das Anweisungen für Suchmaschinen-Crawler enthält. Es teilt ihnen mit, welche Seiten gecrawlt und welche vermieden werden sollen. Es ist wie ein Zeichen für Bots, das sagt: „Kommen Sie hierher, um die Regeln zu erhalten, die Sie zur Nutzung dieser Website benötigen.“

Der Zweck dieser Dateien besteht darin, Suchmaschinen dabei zu helfen, festzustellen, wie Ihre Website am besten gecrawlt wird. Das dient dazu, den Bot und Ihren Server zu entlasten. Unnötige Datenanfragen bringen schließlich niemandem einen sinnvollen Nutzen.

Zum Beispiel gibt es keinen Grund für Googlebot (oder andere Bots), um alles andere als den neuesten Post in Ihrem Blog oder Posts, die ein Update erhalten haben, aufzurufen.

Funktionsweise der Robots.txt-Datei

Der einfachste Weg, um zu verstehen, wie es funktioniert, besteht darin, sich Ihre Website als Gast in Ihrem Haus vorzustellen. Sie haben all diese Dinge, die Sie an Ihren Wänden zeigen möchten, aber Sie möchten nicht, dass Gäste herumlaufen und Dinge berühren. Also sagst du ihnen: „Hey! Bleiben Sie bitte aus diesem Raum raus.“

Das macht die robots.txt-Datei – sie sagt Suchmaschinen, wohin sie gehen sollen (und wo nicht). Sie können dieses Wunder mit einfachen Anweisungen erreichen, die einigen vordefinierten Regeln folgen.

Jede Website darf nur eine einzige robots.txt-Datei haben und muss genau diesem Namen folgen – nicht mehr und nicht weniger.

Benötige ich eine Robots.txt-Datei?

Die kurze Antwort ist ja. Sie sollten eine robots.txt-Datei auf Ihrer Website haben.

Die längere Antwort ist, dass Sie wissen müssen, wie Suchmaschinen-Bots wird Ihre Website crawlen und indizieren und dann Ihre robots.txt-Datei entsprechend schreiben.

Zusätzlich dazu, dass vertrauliche Informationen nicht in die Hände von Spammern und Hackern gelangen, kann eine richtig strukturierte und gepflegte robots.txt-Datei dazu beitragen, das Ranking Ihrer Website in den Suchmaschinenergebnissen zu verbessern.

Relevante Lesungen

So erstellen Sie Ihre Robots.txt-Datei

Die robots.txt-Datei beginnt als einfaches, leeres Textdokument. Das bedeutet, dass Sie eine mit einem einfachen Tool wie einem einfachen Texteditor wie MS Notepad erstellen können. Sie können auch den Texteditor in Ihrem verwenden Web-Hosting Bedienfeld, aber das Erstellen der Datei auf Ihrem Computer ist sicherer.

Sobald Sie das Dokument erstellt haben, ist es an der Zeit, es mit Anweisungen zu füllen. Sie brauchen zwei Dinge, damit dies geschieht. Zunächst müssen Sie wissen, was die robots.txt-Datei Bots mitteilen soll. Als Nächstes müssen Sie verstehen, wie Sie die Anweisungen verwenden, die Bots verstehen können.

Teil 1: Was die Robots.txt-Datei kann

  • Bestimmte Bots zulassen oder blockieren
  • Kontrollieren Sie die Dateien, die Bots crawlen können
  • Kontrollieren Sie die Verzeichnisse, die Bots crawlen können
  • Steuern Sie den Zugriff auf Bilder
  • Definieren Sie Ihre Sitemap

Und mehr.

Teil 2: Verstehen, wie die Robots.txt-Syntax funktioniert

Viele Leute sind verwirrt, wenn sie sich robots.txt-Beispiele ansehen, weil der Inhalt wie Fachjargon aussieht. Das ist ziemlich genau für die durchschnittliche Person. Der Schlüssel zum Verständnis von robots.txt liegt darin, wie ein Computer zu denken.

Computer brauchen Anweisungen, um zu funktionieren, und sie verarbeiten Dinge auf deren Grundlage. Dasselbe gilt für Bots. Sie lesen Anweisungen Zeile für Zeile vor. Jede dieser Zeilen muss einem bestimmten Format folgen.

Hier sind einige allgemeine Befehle für die robots.txt-Datei;

KodeAktion
User-Agent: Googlebot-newsAllow: /
User-Agent: *Disallow: /
Erlauben Sie nur dem News-Bot von Google, Ihre Website zu crawlen
User-Agent: Googlebot-ImageDisallow: /images/dogs.jpgVerhindern Sie, dass das Bild „smiley.jpg“ in den Ergebnissen der Google-Bildsuche angezeigt wird.
User-Agent: GooglebotDisallow: /*.gif$Verhindern Sie, dass der Bot von Google Bilddateien mit der Erweiterung .gif durchsucht.

Eine umfassendere Liste mit Anweisungen für Ihre robots.txt-Datei finden Sie unter Googles Entwicklerdokumentation.

Die Robots.txt-Datei von Facebook.
Hier ist zum Beispiel Facebooks Robots.txt Datei.
Die Robots.txt-Datei von Google.
Und hier ist Robots.txt von Google Datei.

Best Practices für Robots.txt

Befolgen Sie die Anweisungen für die robots.txt-Datei, sonst kann es für Ihre Website schlecht laufen. (Quelle: Google)

Während robots.txt es Ihnen in gewisser Weise ermöglicht, das Bot-Verhalten anzupassen, können die Anforderungen dafür ziemlich starr sein. Beispielsweise müssen Sie die robots.txt-Datei im Stammverzeichnis Ihrer Website platzieren. Das bedeutet im Allgemeinen public_html oder www.

Während einige Regeln verhandelbar sind, ist es am besten, einige Standardrichtlinien zu verstehen;

Beobachten Sie Ihre Bestellung

Anweisungen in der robots.txt-Datei haben fortlaufende Priorität. Das bedeutet, dass widersprüchliche Anweisungen standardmäßig auf die erste Instanz in der Datei gesetzt werden. Es ist, als würde man ein Urteil eines Bundesstaates mit einem Bundesgericht vergleichen.

Seien Sie detailliert

Seien Sie beim Erstellen von Anweisungen so spezifisch wie möglich mit Ihren Parametern. Die Bots verhandeln nicht, also sagen Sie ihnen genau, was passieren muss.

Subdomains sind möglich

Regeln für die robots.txt-Datei in jeder Subdomain gelten jedoch nur für die Subdomain, in der sich die Datei befindet.

Überprüfen Sie die Datei

Das Erstellen und Sichern einer robots.txt-Datei kann ein Rezept für eine Katastrophe sein. Stellen Sie sicher, dass die Regeln oder Anweisungen, die Sie hinzufügen, funktionieren, bevor Sie die Dinge loslassen.

Noindex nichts

Google sagt, es in robots.txt nicht zu tun; daher muss es wahr sein.

Abschließende Überlegungen

Genau genommen benötigen Sie keine robots.txt-Datei. Das gilt insbesondere für kleinere oder statische Websites, die nicht viele Inhalte zum Crawlen haben. Für größere Websites ist die robots.txt jedoch unverzichtbar, um Ressourcen zu reduzieren, die an Webcrawler verloren gehen. Es gibt Ihnen eine viel bessere Kontrolle darüber, wie Bots Ihre Website anzeigen.

Mehr erfahren

Über Jerry Low

Gründer von WebHostingSecretRevealed.net (WHSR) - eine Hosting-Bewertung, die von 100,000-Benutzern als vertrauenswürdig und nützlich erachtet wird. Mehr als 15 Jahre Erfahrung in den Bereichen Webhosting, Affiliate-Marketing und SEO. Mitwirkender bei ProBlogger.net, Business.com, SocialMediaToday.com und anderen.