Spiegazione di Robots.txt

Aggiornato: 2022-07-26 / Articolo di: Jerry Low

Il file robots.txt è un semplice documento di testo contenente le istruzioni dei crawler dei motori di ricerca. Indica loro quali pagine scansionare e quali evitare. È come un segnale per i robot che dice "vieni qui per le regole di cui hai bisogno per usare questo sito web".

Lo scopo di questi file è aiutare i motori di ricerca a determinare il modo migliore per eseguire la scansione del tuo sito. Ciò serve a ridurre il carico sul bot e sul tuo server. Dopotutto, le richieste non necessarie di dati non gioveranno a nessuno in modo significativo.

Ad esempio, non c'è motivo per Googlebot (o qualsiasi altro bot) per visualizzare qualsiasi cosa tranne il post più recente sul tuo blog o i post che hanno ricevuto un aggiornamento.

Come funziona il file Robots.txt

Il modo più semplice per capire come funziona è pensare al tuo sito web come a un ospite a casa tua. Hai tutte queste cose che vuoi sfoggiare sui tuoi muri, ma non vuoi che gli ospiti si aggirino e tocchino le cose. Quindi, digli loro: “Ehi! Resta fuori da questa stanza, per favore.

Questo è ciò che fa il file robots.txt: dice ai motori di ricerca dove dovrebbero andare (e dove non dovrebbero). Puoi realizzare questo miracolo con semplici istruzioni che seguono alcune regole predefinite.

Ogni sito web può avere un solo file robots.txt e deve seguire quel nome esatto, né più né meno.

Ho bisogno di un file Robots.txt?

La risposta breve è sì. Dovresti avere un file robots.txt sul tuo sito web.

La risposta più lunga è che devi sapere come bot dei motori di ricerca eseguirà la scansione e indicizzerà il tuo sito e quindi scriverà il tuo file robots.txt di conseguenza.

Oltre a tenere le informazioni sensibili fuori dalle mani di spammer e hacker, avere un file robots.txt adeguatamente strutturato e mantenuto può aiutare a migliorare il posizionamento del tuo sito nei risultati dei motori di ricerca.

Letture rilevanti

Come creare il tuo file Robots.txt

Il file robots.txt nasce come un semplice documento di testo vuoto. Ciò significa che puoi crearne uno con uno strumento semplice come un editor di testo semplice come MS Notepad. Puoi anche utilizzare l'editor di testo nel tuo web hosting pannello di controllo, ma creare il file sul tuo computer è più sicuro.

Una volta creato il documento, è il momento di iniziare a riempirlo di istruzioni. Hai bisogno di due cose perché questo accada. Innanzitutto, devi sapere cosa vuoi che il file robots.txt dica ai bot. Successivamente, devi capire come utilizzare le istruzioni che i robot possono comprendere.

Parte 1: Cosa può fare il file Robots.txt

  • Consenti o blocca bot specifici
  • Controlla i file che i bot possono scansionare
  • Controlla le directory che i bot possono scansionare
  • Controllare l'accesso alle immagini
  • Definisci la tua mappa del sito

E altro ancora.

Parte 2: Capire come funziona la sintassi Robots.txt

Molte persone si confondono quando guardano campioni di robots.txt perché il contenuto sembra un gergo tecnico. Questo è ragionevolmente accurato per la persona media. La chiave per comprendere robots.txt è pensare come un computer.

I computer hanno bisogno di istruzioni per funzionare e elaborano le cose in base ad esse. Lo stesso vale per i bot. Leggono le istruzioni una riga alla volta. Ognuna di queste righe deve seguire un formato specifico.

Ecco alcuni comandi comuni per il file robots.txt;

CodiceAction
User-agent: Googlebot-newsAllow: /
User-agent: *Disallow: /
Consenti solo al bot di notizie di Google di eseguire la scansione del tuo sito web
User-agent: Googlebot-ImageDisallow: /images/dogs.jpgInterrompi la visualizzazione dell'immagine smiley.jpg sui risultati di ricerca di immagini di Google.
User-agent: GooglebotDisallow: /*.gif$Impedisci al bot di Google di eseguire la scansione di qualsiasi file immagine con estensione .gif.

Puoi ottenere un elenco più completo di istruzioni per il tuo file robots.txt su Documentazione per gli sviluppatori di Google.

File Robots.txt di Facebook.
Ad esempio, ecco Robots.txt di Facebook file.
File Robots.txt di Google.
Ed ecco qui Robots.txt di Google file.

Migliori pratiche per Robots.txt

Segui le istruzioni per robots.txt, altrimenti le cose potrebbero andare male per il tuo sito web. (Fonte: Google)

Mentre, in qualche modo, robots.txt ti consente di personalizzare il comportamento del bot, i requisiti per farlo funzionare possono essere piuttosto rigidi. Ad esempio, devi inserire il file robots.txt nella directory principale del tuo sito web. Ciò significa generalmente public_html o www.

Sebbene alcune regole siano negoziabili, è meglio comprendere alcune linee guida standard;

Guarda il tuo ordine

Le istruzioni nel file robots.txt hanno priorità sequenziale. Ciò significa che le istruzioni in conflitto verranno impostate automaticamente sulla prima istanza nel file. È come confrontare una sentenza di un tribunale statale e federale.

Sii dettagliato

Quando crei le istruzioni, sii il più specifico possibile con i tuoi parametri. I bot non negoziano, quindi dì loro esattamente cosa deve succedere.

I sottodomini sono possibili

Tuttavia, le regole per il file robots.txt in ciascuna sottodominio si applicherà solo al sottodominio in cui risiede il file.

Controlla il file

Costruire e scaricare un file robots.txt può essere una ricetta per il disastro. Assicurati che le regole o le istruzioni che stai aggiungendo funzionino prima di lasciar perdere.

Non indicizzare niente

Google dice di non farlo in robots.txt; quindi deve essere vero.

Considerazioni finali

A rigor di termini, non è necessario un file robots.txt. Ciò è particolarmente vero per i siti Web più piccoli o statici che non hanno molti contenuti da scansionare. Tuttavia, i siti Web più grandi troveranno robots.txt indispensabile per ridurre le risorse perse a causa dei web crawler. Ti dà un controllo molto migliore su come i bot visualizzano il tuo sito web.

Continua a leggere...

A proposito di Jerry Low

Fondatore di WebHostingSecretRevealed.net (WHSR) - una recensione di hosting fidata e utilizzata dagli utenti di 100,000. Più di 15 anni di esperienza in web hosting, affiliate marketing e SEO. Collaboratore di ProBlogger.net, Business.com, SocialMediaToday.com e altro.