Robots.txt Επεξήγηση

Ενημερώθηκε: 2022-07-26 / Άρθρο από: Jerry Low

Το αρχείο robots.txt είναι ένα απλό έγγραφο κειμένου που περιέχει οδηγίες ανιχνευτών μηχανών αναζήτησης. Τους λέει ποιες σελίδες να ανιχνεύσουν και ποιες να αποφύγουν. Είναι σαν μια πινακίδα για bots που λέει, "έλα εδώ για τους κανόνες που χρειάζεσαι για να χρησιμοποιήσεις αυτόν τον ιστότοπο."

Ο σκοπός αυτών των αρχείων είναι να βοηθήσουν τις μηχανές αναζήτησης να καθορίσουν τον καλύτερο τρόπο ανίχνευσης του ιστότοπού σας. Αυτό χρησιμεύει για τη μείωση του φόρτου για το bot και τον διακομιστή σας. Εξάλλου, τα περιττά αιτήματα για δεδομένα δεν θα ωφελήσουν κανέναν με ουσιαστικό τρόπο.

Για παράδειγμα, δεν υπάρχει λόγος Googlebot (ή οποιοδήποτε άλλο ρομπότ) για να δημιουργήσετε οτιδήποτε άλλο εκτός από την πιο πρόσφατη ανάρτηση στο ιστολόγιό σας ή αναρτήσεις που έχουν ενημερωθεί.

Πώς λειτουργεί το αρχείο Robots.txt

Ο ευκολότερος τρόπος για να κατανοήσετε πώς λειτουργεί είναι να σκεφτείτε τον ιστότοπό σας ως επισκέπτη στο σπίτι σας. Έχετε όλα αυτά τα πράγματα που θέλετε να επιδείξετε στους τοίχους σας, αλλά δεν θέλετε οι επισκέπτες να περιπλανώνται και να αγγίζουν τα πράγματα. Λοιπόν, τους λες: «Ε! Μείνε έξω από αυτό το δωμάτιο, σε παρακαλώ».

Αυτό κάνει το αρχείο robots.txt – λέει στις μηχανές αναζήτησης πού πρέπει να πάνε (και πού όχι). Μπορείτε να πετύχετε αυτό το θαύμα με απλές οδηγίες που ακολουθούν κάποιους προκαθορισμένους κανόνες.

Κάθε ιστότοπος μπορεί να έχει μόνο ένα αρχείο robots.txt και πρέπει να ακολουθεί αυτό ακριβώς το όνομα – ούτε περισσότερο, ούτε λιγότερο.

Χρειάζομαι ένα αρχείο Robots.txt;

Η σύντομη απάντηση είναι ναι. Θα πρέπει να έχετε ένα αρχείο robots.txt στον ιστότοπό σας.

Η μεγαλύτερη απάντηση είναι ότι πρέπει να ξέρετε πώς bots μηχανών αναζήτησης θα ανιχνεύσει και θα ευρετηριάσει τον ιστότοπό σας και στη συνέχεια θα γράψει το αρχείο robots.txt ανάλογα.

Εκτός από τη διατήρηση ευαίσθητων πληροφοριών μακριά από τα χέρια των spammers και των χάκερ, η ύπαρξη ενός σωστά δομημένου και συντηρημένου αρχείου robots.txt μπορεί να συμβάλει στη βελτίωση της κατάταξης του ιστότοπού σας στα αποτελέσματα των μηχανών αναζήτησης.

Σχετικές αναγνώσεις

Πώς να δημιουργήσετε το αρχείο σας Robots.txt

Το αρχείο robots.txt ξεκινά τη ζωή του ως ένα απλό, κενό έγγραφο κειμένου. Αυτό σημαίνει ότι μπορείτε να δημιουργήσετε ένα με ένα εργαλείο τόσο απλό όσο ένα πρόγραμμα επεξεργασίας απλού κειμένου όπως το MS Notepad. Μπορείτε επίσης να χρησιμοποιήσετε το πρόγραμμα επεξεργασίας κειμένου στο δικό σας web hosting πίνακα ελέγχου, αλλά η δημιουργία του αρχείου στον υπολογιστή σας είναι ασφαλέστερη.

Αφού δημιουργήσετε το έγγραφο, είναι ώρα να αρχίσετε να το συμπληρώνετε με οδηγίες. Χρειάζεστε δύο πράγματα για να συμβεί αυτό. Αρχικά, πρέπει να γνωρίζετε τι θέλετε να λέει το αρχείο robots.txt στα bots. Στη συνέχεια, πρέπει να κατανοήσετε πώς να χρησιμοποιείτε τις οδηγίες που μπορούν να κατανοήσουν τα bots.

Μέρος 1: Τι μπορεί να κάνει το αρχείο Robots.txt

  • Επιτρέψτε ή αποκλείστε συγκεκριμένα ρομπότ
  • Ελέγξτε τα αρχεία που μπορούν να ανιχνεύσουν τα bots
  • Ελέγξτε τους καταλόγους που μπορούν να ανιχνεύσουν τα bots
  • Ελέγξτε την πρόσβαση στις εικόνες
  • Καθορίστε τον χάρτη του ιστότοπού σας

Κι αλλα.

Μέρος 2: Κατανόηση του τρόπου λειτουργίας της σύνταξης του Robots.txt

Πολλοί άνθρωποι μπερδεύονται όταν κοιτάζουν δείγματα robots.txt, επειδή το περιεχόμενο μοιάζει με τεχνολογική ορολογία. Αυτό είναι αρκετά ακριβές για τον μέσο άνθρωπο. Το κλειδί για την κατανόηση του robots.txt είναι να σκέφτεστε σαν υπολογιστής.

Οι υπολογιστές χρειάζονται οδηγίες για να λειτουργήσουν και επεξεργάζονται πράγματα με βάση αυτές. Το ίδιο ισχύει και για τα bots. Διαβάζουν οδηγίες μία γραμμή τη φορά. Κάθε μία από αυτές τις γραμμές πρέπει να ακολουθεί μια συγκεκριμένη μορφή.

Ακολουθούν ορισμένες κοινές εντολές για το αρχείο robots.txt.

ΚώδικαςΕνέργειες
Πράκτορας χρήστη: Googlebot-newsAllow: /
User-agent: *Disallow: /
Επιτρέψτε μόνο στο bot ειδήσεων της Google να ανιχνεύει τον ιστότοπό σας
Πράκτορας χρήστη: Googlebot-ImageDisallow: /images/dogs.jpgΣταματήστε την εμφάνιση της εικόνας smiley.jpg στα αποτελέσματα αναζήτησης εικόνων Google.
Πράκτορας χρήστη: GooglebotDisallow: /*.gif$Αποκλείστε το bot της Google από την ανίχνευση οποιουδήποτε αρχείου εικόνας με την επέκταση .gif.

Μπορείτε να λάβετε μια πιο ολοκληρωμένη λίστα οδηγιών για το αρχείο robots.txt Τεκμηρίωση προγραμματιστή της Google.

Το αρχείο Robots.txt του Facebook.
Για παράδειγμα, εδώ είναι Το Robots.txt του Facebook αρχείο.
Το αρχείο Robots.txt της Google.
Και εδώ είναι Το Robots.txt της Google αρχείο.

Βέλτιστες πρακτικές για το Robots.txt

Ακολουθήστε τις οδηγίες για το robots.txt, διαφορετικά τα πράγματα μπορεί να πάνε άσχημα για τον ιστότοπό σας. (Πηγή: Google)

Ενώ, κατά κάποιο τρόπο, το robots.txt σάς επιτρέπει να προσαρμόσετε τη συμπεριφορά του bot, οι απαιτήσεις για να λειτουργήσει αυτό μπορεί να είναι αρκετά άκαμπτες. Για παράδειγμα, πρέπει να τοποθετήσετε το αρχείο robots.txt στον ριζικό κατάλογο του ιστότοπού σας. Αυτό σημαίνει γενικά public_html ή www.

Ενώ ορισμένοι κανόνες είναι διαπραγματεύσιμοι, είναι καλύτερο να κατανοήσετε ορισμένες τυπικές οδηγίες.

Παρακολουθήστε την παραγγελία σας

Οι οδηγίες στο αρχείο robots.txt έχουν διαδοχική προτεραιότητα. Αυτό σημαίνει ότι οι οδηγίες που βρίσκονται σε διένεξη θα είναι από προεπιλογή η πρώτη παρουσία στο αρχείο. Είναι σαν να συγκρίνεις απόφαση πολιτείας με ομοσπονδιακό δικαστήριο.

Να είστε λεπτομερείς

Όταν δημιουργείτε οδηγίες, να είστε όσο το δυνατόν πιο συγκεκριμένοι με τις παραμέτρους σας. Τα bots δεν διαπραγματεύονται, γι' αυτό πείτε τους ακριβώς τι πρέπει να συμβεί.

Υποτομείς είναι δυνατοί

Ωστόσο, οι κανόνες για το αρχείο robots.txt σε κάθε υποτομέα θα ισχύουν μόνο για τον υποτομέα όπου βρίσκεται το αρχείο.

Ελέγξτε το Αρχείο

Η δημιουργία και η απόρριψη ενός αρχείου robots.txt μπορεί να είναι μια συνταγή για καταστροφή. Βεβαιωθείτε ότι λειτουργούν οι κανόνες ή οι οδηγίες που προσθέτετε πριν αφήσετε τα πράγματα να χαλαρώσουν.

Μην κάνετε Noindex τίποτα

Η Google λέει να μην το κάνει στο robots.txt. επομένως πρέπει να είναι αλήθεια.

Τελικές Σκέψεις

Αυστηρά μιλώντας, δεν χρειάζεστε αρχείο robots.txt. Αυτό ισχύει ιδιαίτερα για μικρότερους ή στατικούς ιστότοπους που δεν έχουν πολύ περιεχόμενο για ανίχνευση. Ωστόσο, οι μεγαλύτεροι ιστότοποι θα βρουν το robots.txt απαραίτητο για τη μείωση των πόρων που χάνονται στα προγράμματα ανίχνευσης ιστού. Σας δίνει πολύ καλύτερο έλεγχο του τρόπου με τον οποίο τα bots βλέπουν τον ιστότοπό σας.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΑ

Σχετικά με τον Jerry Low

Ιδρυτής του WebHostingSecretRevealed.net (WHSR) - ένα σχόλιο φιλοξενίας που εμπιστεύτηκε και χρησιμοποιήθηκε από τους χρήστες του 100,000. Περισσότερο από 15 χρόνια εμπειρίας στο web hosting, μάρκετινγκ θυγατρικών, και SEO. Συνεργάτης στο ProBlogger.net, Business.com, SocialMediaToday.com και πολλά άλλα.