Все для начинающих интернет-предпринимателей

Файл Robots.txt для сайта

RobotsПриветствуем вас! Зачем нужен файл robots.txt для сайта? Во, первых боты, пауки и другие сканеры, попадающие на ваши динамические страницы, могут привести к большой нагрузке на сервер и замедлить работу вашего сайта.

Один из способов уменьшить нагрузку на сервер от ботов, пауков и других паразитов – создать этот файл в корне вашего сайта. К примеру, спам-бот пытается попасть в вашу контактную форму с нежелательным спамом, в таких случаях вы можете заблокировать ему доступ к вашему сайту с помощью этого чудесного файлика.

Во, вторых это говорит поисковым системам, какой контент на вашем сайте они должны и не должны индексировать. Например, вы можете остановить поисковую систему от обхода вашей папки с изображениями или индексации файла PDF, который находится в секретной папке.

Основные поисковые запросы будут соответствовать установленным вами правилам. Однако имейте в виду, что правила, которые вы определяете в файле robots, могут быть не соблюдены.

Сканеры для вредоносного программного обеспечения и плохие поисковые системы могут не соответствовать вашим правилам и индексировать все, что они хотят. К счастью, основные поисковые системы следуют стандарту, включая Яндекс, Google, Bing.

Как создается файл Robots.txtRobots.txt

Это текстовый файл, который вы храните в главном каталоге вашего сайта. Однако нужно быть осторожными, убедитесь, что вы случайно не блокируете что-то важное. Вы можете легко заблокировать весь сайт от Яши и увидеть, как ваш трафик от их поиска исчезнет!

Для начала создается текстовый документ и сохраняется он как файл «robots.txt». Его необходимо загрузить в корневую папку site.ru/robots.txt (пишется адрес своего сайта, вместо site.ru). Поместив его в корневой каталог, поисковые системы и другие сканеры будут точно знать, где что искать, прежде чем они начнут индексировать ваш сайт.

Каждая запись в файле будет содержать строку User-agent, чтобы идентифицировать паука, который вы хотите проинструктировать, за которым следует одна или несколько Disallow:, чтобы сообщить об этом роботу, чего следует избегать. Давайте мы приведем примеры файла.

Пример 1

Если вы хотите, чтобы все ваши каталоги были доступны для индекса, может оказаться полезным простой файл роботов со следующим содержимым:

User-agent: *
Disallow: 

Пример 2

Этим примером вы можете блокировать определенные каталоги от индексирования. Это полезно, если у вас есть области администрирования, защищенные паролем или разделы тестирования вашего сайта, которые вы не хотите индексировать:

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin-area/
Disallow: /testing/test.htm 

Пример 3

К примеру, вы заблокировали все ваши страницы от индексации, но хотите предоставить доступ Google, вы можете сделать это следующим способом:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /testing/test.htm 

Пример 4

К примеру, вы запретили роботам индексировать все ваши страницы. Как опять разрешить роботам сканировать ваши странички? Легко! Вам просто ничего не надо прописывать после Disallow:.

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: 

Общие ошибки при использовании robots.txt

Когда вы впервые создаете файл robots, вы можете сделать несколько распространенных ошибок:

  • Очень легко оставить обратную косую черту в Disallow: /, которая блокирует указанный пользовательский агент от доступа к любому вашему контенту. Это особенно опасно для пауков поисковых систем, и они могут удалить ваш сайт из своего индекса. Так что проверьте ваш файл несколько раз.
  • Если вы помещаете несколько каталогов для запрета на одну строку, robots.txt не будет функционировать должным образом, а некоторые папки будут сканироваться. Всегда указывайте каждый каталог на новой строке Disallow:.

Это были всего лишь примеры. Вы можете не создавать robots, а воспользоваться нашим, самым точным файлом:

User-agent: *
Disallow: /wp-includes
Disallow: /wp-feed
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: Ваш сайт.ru
Sitemap: http://Ваш сайт/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/ 

Внимание! Вместо site.ru прописываем свой адрес сайта.

Мы надеемся, что это руководство подготовило вас к использованию файла robots.txt. А у нас на этом все. Всем пока!

С уважением Вячеслав и Валерия!

Понравился материал? Поделитесь с друзьями!

2 Ответа(ов) к Файл Robots.txt для сайта

  1. Спасибо огромное! Ваш файл действительно работает, нагрузка на сервер упала и он перестал лагать.

  2. Александр

    Ещё при создании сайта сделал этот файл, и если честно, то как-то особо и не вникал в подробности. Может попробую переделать по вашему примеру. У меня он немного не такой.

Добавить комментарий Отменить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *