Home / Artigos / Guias de hospedagem na web / Robots.txt explicado

Robots.txt explicado

O arquivo robots.txt é um documento de texto simples que contém as instruções dos rastreadores do mecanismo de pesquisa. Ele diz a eles quais páginas rastrear e quais evitar. É como um sinal para bots dizendo: “venha aqui para as regras que você precisa para usar este site”.

O objetivo desses arquivos é ajudar os mecanismos de pesquisa a determinar a melhor forma de rastrear seu site. Isso serve para reduzir a carga sobre o bot e seu servidor. Afinal, solicitações desnecessárias de dados não beneficiarão ninguém de maneira significativa.

Por exemplo, não há razão para Googlebot (ou qualquer outro bot) para acessar qualquer coisa, exceto a postagem mais recente em seu blog ou postagens que receberam uma atualização.

Como funciona o arquivo Robots.txt

A maneira mais fácil de entender como funciona é pensar no seu site como um convidado em sua casa. Você tem todas essas coisas que deseja exibir em suas paredes, mas não quer convidados vagando e tocando nas coisas. Então, você diz a eles: “Ei! Fique fora desta sala, por favor.

É isso que o arquivo robots.txt faz – ele informa aos mecanismos de pesquisa onde eles devem ir (e onde não devem). Você pode conseguir esse milagre com instruções simples que seguem algumas regras pré-definidas.

Cada site pode ter apenas um único arquivo robots.txt e deve seguir esse nome exato – nem mais, nem menos.

Preciso de um arquivo Robots.txt?

A resposta curta é sim. Você deve ter um arquivo robots.txt em seu site.

A resposta mais longa é que você precisa saber como os bots de mecanismos de pesquisa rastrearão e indexarão seu site e, em seguida, escreverão seu arquivo robots.txt de acordo.

Além de manter informações confidenciais fora do alcance de spammers e hackers, ter um arquivo robots.txt estruturado e mantido adequadamente pode ajudar a melhorar a classificação do seu site nos resultados dos mecanismos de pesquisa.

Leituras Relevantes

Como construir seu arquivo Robots.txt

O arquivo robots.txt começa como um documento de texto simples e em branco. Isso significa que você pode criar um com uma ferramenta tão simples quanto um editor de texto simples como o MS Notepad. Você também pode usar o editor de texto em seu hospedagem na web painel de controle, mas criar o arquivo em seu computador é mais seguro.

Depois de criar o documento, é hora de começar a preenchê-lo com instruções. Você precisa de duas coisas para que isso aconteça. Primeiro, você deve saber o que deseja que o arquivo robots.txt informe aos bots. Em seguida, você precisa entender como usar as instruções que os bots podem entender.

Parte 1: O que o arquivo Robots.txt pode fazer

  • Permitir ou bloquear bots específicos
  • Controle os arquivos que os bots podem rastrear
  • Controle os diretórios que os bots podem rastrear
  • Controle o acesso às imagens
  • Defina seu mapa do site

E mais.

Parte 2: Entendendo como a sintaxe do Robots.txt funciona

Muitas pessoas ficam confusas ao ver exemplos de robots.txt porque o conteúdo parece um jargão técnico. Isso é razoavelmente preciso para a pessoa média. A chave para entender o robots.txt é pensar como um computador.

Os computadores precisam de instruções para funcionar e processam as coisas com base nelas. O mesmo vale para os bots. Eles lêem as instruções uma linha de cada vez. Cada uma dessas linhas tem que seguir um formato específico.

Aqui estão alguns comandos comuns para o arquivo robots.txt;

CodeAçao Social
Agente do usuário: Googlebot-newsPermitir: /
Agente do usuário: *Não permitir: /
Permitir apenas que o bot de notícias do Google rastreie seu site
Agente do usuário: Googlebot-ImageDisallow: /images/dogs.jpgImpeça a exibição da imagem smiley.jpg nos resultados de pesquisa de imagens do Google.
Agente do usuário: GooglebotDisallow: /*.gif$Impeça que o bot do Google rastreie qualquer arquivo de imagem com a extensão .gif.

Você pode obter uma lista mais abrangente de instruções para seu arquivo robots.txt em Documentação do desenvolvedor do Google.

O arquivo Robots.txt do Facebook.
Por exemplo, aqui está Robots.txt do Facebook arquivo.
Arquivo Robots.txt do Google.
E aqui está Robots.txt do Google arquivo.

Práticas recomendadas para Robots.txt

Siga as instruções para robots.txt ou as coisas podem correr mal para o seu site. (Fonte: o Google)

Embora, de certa forma, o robots.txt permita que você personalize o comportamento do bot, os requisitos para que isso funcione podem ser bastante rígidos. Por exemplo, você deve colocar o arquivo robots.txt no diretório raiz do seu site. Isso geralmente significa public_html ou www.

Embora algumas regras sejam negociáveis, é melhor entender algumas diretrizes padrão;

Assista seu pedido

As instruções no arquivo robots.txt têm prioridade sequencial. Isso significa que as instruções conflitantes serão padronizadas para a primeira instância no arquivo. É como comparar uma decisão de um tribunal estadual versus federal.

Seja detalhado

Ao criar instruções, seja o mais específico possível com seus parâmetros. Os bots não negociam, então diga a eles exatamente o que precisa acontecer.

Subdomínios são possíveis

No entanto, as regras para o arquivo robots.txt em cada subdomínio só se aplicará ao subdomínio onde o arquivo reside.

Verifique o arquivo

Construir e despejar um arquivo robots.txt pode ser uma receita para o desastre. Certifique-se de que as regras ou instruções que você está adicionando funcionem antes de deixar as coisas soltas.

Não indexe nada

O Google diz para não fazer isso em robots.txt; portanto, deve ser verdade.

Considerações Finais

Estritamente falando, você não precisa de um arquivo robots.txt. Isso é especialmente verdadeiro para sites menores ou estáticos que não têm muito conteúdo para rastrear. No entanto, sites maiores acharão o robots.txt indispensável em vermelhoucing recursos perdidos para rastreadores da web. Dá a você um controle muito melhor sobre como os bots visualizam seu site.

Leia mais

Foto do autor

Artigo escrito por Jerry Low

Continue lendo