Описание robots.txt

Обновлено: 2022 апреля 07 г. / Автор статьи: Джерри Лоу

Файл robots.txt представляет собой простой текстовый документ, содержащий инструкции для сканеров поисковых систем. Он сообщает им, какие страницы сканировать, а какие избегать. Это как знак для ботов, говорящий: «Приходите сюда, чтобы узнать правила, необходимые для использования этого сайта».

Цель этих файлов — помочь поисковым системам определить, как лучше всего сканировать ваш сайт. Это служит для снижения нагрузки на бота и ваш сервер. В конце концов, ненужные запросы данных никому не принесут существенной пользы.

Например, нет причин для Googlebot (или любые другие боты), чтобы получить что-либо, кроме самой последней записи в вашем блоге или сообщений, которые получили обновление.

Как работает файл robots.txt

Самый простой способ понять, как это работает, — представить свой веб-сайт гостем в вашем доме. У вас есть все эти вещи, которые вы хотите показать на своих стенах, но вы не хотите, чтобы гости бродили и трогали вещи. Итак, вы говорите им: «Эй! Держись подальше от этой комнаты, пожалуйста».

Это то, что делает файл robots.txt — он сообщает поисковым системам, куда они должны идти (и куда не должны). Вы можете достичь этого чуда с помощью простых инструкций, которые следуют некоторым заранее определенным правилам.

Каждый веб-сайт может иметь только один файл robots.txt и должен следовать именно этому имени — ни больше, ни меньше.

Нужен ли мне файл robots.txt?

Краткий ответ: да. На вашем сайте должен быть файл robots.txt.

Более длинный ответ заключается в том, что вам нужно знать, как боты поисковых систем просканирует и проиндексирует ваш сайт, а затем соответствующим образом запишет файл robots.txt.

Помимо того, что конфиденциальная информация не попадет в руки спамеров и хакеров, правильно структурированный и поддерживаемый файл robots.txt может помочь повысить рейтинг вашего сайта в результатах поиска.

Соответствующие чтения

Как создать файл robots.txt

Файл robots.txt начинает свою жизнь как простой пустой текстовый документ. Это означает, что вы можете создать его с помощью простого текстового редактора, такого как MS Notepad. Вы также можете использовать текстовый редактор в веб-хостинг панель управления, но создание файла на вашем компьютере безопаснее.

После того, как вы создали документ, пришло время приступить к его заполнению инструкциями. Для этого вам нужны две вещи. Во-первых, вы должны знать, что вы хотите, чтобы файл robots.txt сообщал ботам. Далее вам нужно понять, как использовать инструкции, понятные ботам.

Часть 1. Что может файл robots.txt

  • Разрешить или заблокировать определенных ботов
  • Контролируйте файлы, которые боты могут сканировать
  • Контролируйте каталоги, которые могут сканировать боты
  • Контролировать доступ к изображениям
  • Определите свою карту сайта

И многое другое.

Часть 2. Понимание того, как работает синтаксис robots.txt

Многие люди путаются, глядя на образцы robots.txt, потому что их содержание похоже на технический жаргон. Это достаточно точно для среднего человека. Ключ к пониманию файла robots.txt — думать как компьютер.

Компьютерам для работы нужны инструкции, и они обрабатывают информацию на их основе. То же самое верно и для ботов. Они читают инструкции по одной строке за раз. Каждая из этих строк должна соответствовать определенному формату.

Вот несколько общих команд для файла robots.txt.

Код:Действие
Агент пользователя: Googlebot-newsAllow: /
Агент пользователя: *Запретить: /
Разрешить сканирование вашего веб-сайта только новостному боту Google.
Агент пользователя: Googlebot-ImageDisallow: /images/dogs.jpgОстановите отображение изображения smiley.jpg в результатах поиска изображений Google.
Агент пользователя: GooglebotDisallow: /*.gif$Запретите роботу Google сканировать любой файл изображения с расширением .gif.

Вы можете получить более полный список инструкций для файла robots.txt на Документация разработчика Google.

Файл Robots.txt Facebook.
Например, вот Facebook's robots.txt .
Файл Robots.txt от Google.
А вот и Google Robots.txt .

Лучшие практики для robots.txt

Следуйте инструкциям для robots.txt, иначе у вашего сайта могут возникнуть проблемы. (Источник: Google)

Хотя в некотором смысле robots.txt позволяет настраивать поведение бота, требования для его работы могут быть довольно жесткими. Например, вы должны поместить файл robots.txt в корневой каталог вашего сайта. Обычно это означает public_html или www.

Хотя некоторые правила подлежат обсуждению, лучше понять некоторые стандартные рекомендации;

Следите за своим заказом

Инструкции в файле robots.txt имеют последовательный приоритет. Это означает, что конфликтующие инструкции по умолчанию будут относиться к первому экземпляру в файле. Это как сравнивать решение суда штата и федерального суда.

Быть подробным

При создании инструкций будьте как можно более конкретными с вашими параметрами. Боты не ведут переговоров, поэтому скажите им, что именно должно произойти.

Возможны поддомены

Однако правила для файла robots.txt в каждом поддомене будут применяться только к тому поддомену, в котором находится файл.

Проверить файл

Создание и удаление файла robots.txt может привести к катастрофе. Убедитесь, что правила или инструкции, которые вы добавляете, работают, прежде чем что-то потерять.

Ничего не индексировать

Google говорит не делать этого в robots.txt; следовательно, это должно быть правдой.

Заключительные мысли

Строго говоря, вам не нужен файл robots.txt. Это особенно актуально для небольших или статических веб-сайтов, на которых не так много контента для сканирования. Тем не менее, более крупные веб-сайты сочтут файл robots.txt незаменимым для сокращения ресурсов, потерянных поисковыми роботами. Это дает вам гораздо лучший контроль над тем, как боты просматривают ваш сайт.

Узнать больше

О Джерри Лоу

Основатель WebHostingSecretRevealed.net (WHSR) - обзора хостинга, которому доверяют и используют пользователи 100,000. Более чем 15-летний опыт в веб-хостинге, партнерском маркетинге и SEO. Вкладчик в ProBlogger.net, Business.com, SocialMediaToday.com и многое другое.

Подключение: