Divulgación: WHSR es compatible con lectores. Cuando compra a través de nuestros enlaces, podemos ganar una comisión.
Robots.txt explicado
Actualizado: 2022-07-26 / Artículo por: Jerry Low
El archivo robots.txt es un documento de texto simple que contiene las instrucciones de los rastreadores de los motores de búsqueda. Les dice qué páginas rastrear y cuáles evitar. Es como una señal para los bots que dice: "Ven aquí para conocer las reglas que necesitas para usar este sitio web".
El propósito de estos archivos es ayudar a los motores de búsqueda a determinar la mejor manera de rastrear su sitio. Eso sirve para reducir la carga sobre el bot y su servidor. Después de todo, las solicitudes innecesarias de datos no beneficiarán a nadie de manera significativa.
Por ejemplo, no hay razón para Googlebot (o cualquier otro bot) para obtener cualquier cosa que no sea la publicación más reciente en su blog o las publicaciones que se han actualizado.
Cómo funciona el archivo Robots.txt
La forma más fácil de entender cómo funciona es pensar en su sitio web como un invitado en su casa. Tienes todas estas cosas que quieres mostrar en tus paredes, pero no quieres que los invitados deambulen y toquen cosas. Entonces, les dices: “¡Oye! Manténgase fuera de esta habitación, por favor.
Eso es lo que hace el archivo robots.txt: les dice a los motores de búsqueda dónde deben ir (y dónde no). Puedes lograr este milagro con instrucciones simples que siguen algunas reglas predefinidas.
Cada sitio web solo puede tener un único archivo robots.txt y debe seguir ese nombre exacto, ni más ni menos.
¿Necesito un archivo Robots.txt?
La respuesta corta es sí. Debe tener un archivo robots.txt en su sitio web.
La respuesta más larga es que necesitas saber cómo bots de motores de búsqueda rastreará e indexará su sitio y luego escribirá su archivo robots.txt en consecuencia.
Además de mantener la información confidencial fuera del alcance de los spammers y los piratas informáticos, tener un archivo robots.txt correctamente estructurado y mantenido puede ayudar a mejorar la clasificación de su sitio en los resultados de los motores de búsqueda.
El archivo robots.txt comienza como un simple documento de texto en blanco. Eso significa que puede crear uno con una herramienta tan simple como un editor de texto sin formato como MS Notepad. También puede usar el editor de texto en su Alojamiento Web panel de control, pero crear el archivo en su computadora es más seguro.
Una vez que haya creado el documento, es hora de comenzar a llenarlo con instrucciones. Necesitas dos cosas para que esto suceda. Primero, debe saber qué quiere que el archivo robots.txt le diga a los bots. A continuación, debe comprender cómo usar las instrucciones que los bots pueden comprender.
Parte 1: Qué puede hacer el archivo Robots.txt
Permitir o bloquear bots específicos
Controle los archivos que los bots pueden rastrear
Controle los directorios que los bots pueden rastrear
Controlar el acceso a las imágenes
Defina su mapa del sitio
Y más.
Parte 2: Comprender cómo funciona la sintaxis de Robots.txt
Mucha gente se confunde cuando mira muestras de robots.txt porque el contenido parece jerga técnica. Eso es razonablemente preciso para la persona promedio. La clave para entender robots.txt es pensar como una computadora.
Las computadoras necesitan instrucciones para funcionar y procesan las cosas en función de ellas. Lo mismo es cierto para los bots. Leen las instrucciones una línea a la vez. Cada una de esas líneas tiene que seguir un formato específico.
Estos son algunos comandos comunes para el archivo robots.txt;
Código
Acción
Agente de usuario: Googlebot-newsAllow: / Agente de usuario: *Rechazar: /
Solo permita que el bot de noticias de Google rastree su sitio web
Agente de usuario: Googlebot-ImageDisallow: /images/dogs.jpg
Evita que la imagen smiley.jpg se muestre en los resultados de búsqueda de imágenes de Google.
Agente de usuario: GooglebotDisallow: /*.gif$
Impida que el bot de Google rastree cualquier archivo de imagen con la extensión .gif.
Siga las instrucciones para robots.txt, o las cosas pueden salir mal para su sitio web. (Fuente: Google)
Si bien, de alguna manera, robots.txt le permite personalizar el comportamiento del bot, los requisitos para que esto funcione pueden ser bastante rígidos. Por ejemplo, debe colocar el archivo robots.txt en el directorio raíz de su sitio web. Eso generalmente significa public_html o www.
Si bien algunas reglas son negociables, es mejor comprender algunas pautas estándar;
Mira tu pedido
Las instrucciones del archivo robots.txt tienen prioridad secuencial. Eso significa que las instrucciones en conflicto aparecerán de forma predeterminada en la primera instancia del archivo. Es como comparar un fallo de un tribunal estatal con uno federal.
Sea detallado
Al crear instrucciones, sea lo más específico posible con sus parámetros. Los bots no negocian, así que dígales con precisión lo que debe suceder.
Los subdominios son posibles
Sin embargo, las reglas para el archivo robots.txt en cada subdominio solo se aplicarán al subdominio donde reside el archivo.
comprobar el archivo
Crear y descargar un archivo robots.txt puede ser una receta para el desastre. Asegúrese de que las reglas o instrucciones que está agregando funcionen antes de soltar las cosas.
No indexar nada
Google dice que no lo haga en robots.txt; por lo tanto, debe ser cierto.
Consideraciones finales:
Estrictamente hablando, no necesita un archivo robots.txt. Eso es especialmente cierto para sitios web pequeños o estáticos que no tienen mucho contenido para rastrear. Sin embargo, los sitios web más grandes encontrarán que robots.txt es indispensable para reducir los recursos perdidos por los rastreadores web. Le brinda un control mucho mejor sobre cómo los bots ven su sitio web.
Fundador de WebHostingSecretRevealed.net (WHSR): una revisión de alojamiento confiable y utilizada por los usuarios de 100,000. Más de 15 años de experiencia en alojamiento web, marketing de afiliación y SEO. Colaborador de ProBlogger.net, Business.com, SocialMediaToday.com y más.