Robots.txt explicado

Actualizado: 2022-07-26 / Artículo por: Jerry Low

El archivo robots.txt es un documento de texto simple que contiene las instrucciones de los rastreadores de los motores de búsqueda. Les dice qué páginas rastrear y cuáles evitar. Es como una señal para los bots que dice: "Ven aquí para conocer las reglas que necesitas para usar este sitio web".

El propósito de estos archivos es ayudar a los motores de búsqueda a determinar la mejor manera de rastrear su sitio. Eso sirve para reducir la carga sobre el bot y su servidor. Después de todo, las solicitudes innecesarias de datos no beneficiarán a nadie de manera significativa.

Por ejemplo, no hay razón para Googlebot (o cualquier otro bot) para obtener cualquier cosa que no sea la publicación más reciente en su blog o las publicaciones que se han actualizado.

Cómo funciona el archivo Robots.txt

La forma más fácil de entender cómo funciona es pensar en su sitio web como un invitado en su casa. Tienes todas estas cosas que quieres mostrar en tus paredes, pero no quieres que los invitados deambulen y toquen cosas. Entonces, les dices: “¡Oye! Manténgase fuera de esta habitación, por favor.

Eso es lo que hace el archivo robots.txt: les dice a los motores de búsqueda dónde deben ir (y dónde no). Puedes lograr este milagro con instrucciones simples que siguen algunas reglas predefinidas.

Cada sitio web solo puede tener un único archivo robots.txt y debe seguir ese nombre exacto, ni más ni menos.

¿Necesito un archivo Robots.txt?

La respuesta corta es sí. Debe tener un archivo robots.txt en su sitio web.

La respuesta más larga es que necesitas saber cómo bots de motores de búsqueda rastreará e indexará su sitio y luego escribirá su archivo robots.txt en consecuencia.

Además de mantener la información confidencial fuera del alcance de los spammers y los piratas informáticos, tener un archivo robots.txt correctamente estructurado y mantenido puede ayudar a mejorar la clasificación de su sitio en los resultados de los motores de búsqueda.

Lecturas relevantes

Cómo construir su archivo Robots.txt

El archivo robots.txt comienza como un simple documento de texto en blanco. Eso significa que puede crear uno con una herramienta tan simple como un editor de texto sin formato como MS Notepad. También puede usar el editor de texto en su Alojamiento Web panel de control, pero crear el archivo en su computadora es más seguro.

Una vez que haya creado el documento, es hora de comenzar a llenarlo con instrucciones. Necesitas dos cosas para que esto suceda. Primero, debe saber qué quiere que el archivo robots.txt le diga a los bots. A continuación, debe comprender cómo usar las instrucciones que los bots pueden comprender.

Parte 1: Qué puede hacer el archivo Robots.txt

  • Permitir o bloquear bots específicos
  • Controle los archivos que los bots pueden rastrear
  • Controle los directorios que los bots pueden rastrear
  • Controlar el acceso a las imágenes
  • Defina su mapa del sitio

Y más.

Parte 2: Comprender cómo funciona la sintaxis de Robots.txt

Mucha gente se confunde cuando mira muestras de robots.txt porque el contenido parece jerga técnica. Eso es razonablemente preciso para la persona promedio. La clave para entender robots.txt es pensar como una computadora.

Las computadoras necesitan instrucciones para funcionar y procesan las cosas en función de ellas. Lo mismo es cierto para los bots. Leen las instrucciones una línea a la vez. Cada una de esas líneas tiene que seguir un formato específico.

Estos son algunos comandos comunes para el archivo robots.txt;

CódigoAcción
Agente de usuario: Googlebot-newsAllow: /
Agente de usuario: *Rechazar: /
Solo permita que el bot de noticias de Google rastree su sitio web
Agente de usuario: Googlebot-ImageDisallow: /images/dogs.jpgEvita que la imagen smiley.jpg se muestre en los resultados de búsqueda de imágenes de Google.
Agente de usuario: GooglebotDisallow: /*.gif$Impida que el bot de Google rastree cualquier archivo de imagen con la extensión .gif.

Puede obtener una lista más completa de instrucciones para su archivo robots.txt en Documentación del desarrollador de Google.

Archivo Robots.txt de Facebook.
Por ejemplo, aquí está Robots.txt de Facebook archivo.
Archivo Robots.txt de Google.
Y aqui esta Robots de Google.txt archivo.

Mejores prácticas para Robots.txt

Siga las instrucciones para robots.txt, o las cosas pueden salir mal para su sitio web. (Fuente: Google)

Si bien, de alguna manera, robots.txt le permite personalizar el comportamiento del bot, los requisitos para que esto funcione pueden ser bastante rígidos. Por ejemplo, debe colocar el archivo robots.txt en el directorio raíz de su sitio web. Eso generalmente significa public_html o www.

Si bien algunas reglas son negociables, es mejor comprender algunas pautas estándar;

Mira tu pedido

Las instrucciones del archivo robots.txt tienen prioridad secuencial. Eso significa que las instrucciones en conflicto aparecerán de forma predeterminada en la primera instancia del archivo. Es como comparar un fallo de un tribunal estatal con uno federal.

Sea detallado

Al crear instrucciones, sea lo más específico posible con sus parámetros. Los bots no negocian, así que dígales con precisión lo que debe suceder.

Los subdominios son posibles

Sin embargo, las reglas para el archivo robots.txt en cada subdominio solo se aplicarán al subdominio donde reside el archivo.

comprobar el archivo

Crear y descargar un archivo robots.txt puede ser una receta para el desastre. Asegúrese de que las reglas o instrucciones que está agregando funcionen antes de soltar las cosas.

No indexar nada

Google dice que no lo haga en robots.txt; por lo tanto, debe ser cierto.

Consideraciones finales:

Estrictamente hablando, no necesita un archivo robots.txt. Eso es especialmente cierto para sitios web pequeños o estáticos que no tienen mucho contenido para rastrear. Sin embargo, los sitios web más grandes encontrarán que robots.txt es indispensable para reducir los recursos perdidos por los rastreadores web. Le brinda un control mucho mejor sobre cómo los bots ven su sitio web.

Leer más

Acerca de Jerry Low

Fundador de WebHostingSecretRevealed.net (WHSR): una revisión de alojamiento confiable y utilizada por los usuarios de 100,000. Más de 15 años de experiencia en alojamiento web, marketing de afiliación y SEO. Colaborador de ProBlogger.net, Business.com, SocialMediaToday.com y más.