Файл Robots.txt для сайта
Приветствуем вас! Зачем нужен файл robots.txt для сайта? Во, первых боты, пауки и другие сканеры, попадающие на ваши динамические страницы, могут привести к большой нагрузке на сервер и замедлить работу вашего сайта.
Один из способов уменьшить нагрузку на сервер от ботов, пауков и других паразитов – создать этот файл в корне вашего сайта. К примеру, спам-бот пытается попасть в вашу контактную форму с нежелательным спамом, в таких случаях вы можете заблокировать ему доступ к вашему сайту с помощью этого чудесного файлика.
Во, вторых это говорит поисковым системам, какой контент на вашем сайте они должны и не должны индексировать. Например, вы можете остановить поисковую систему от обхода вашей папки с изображениями или индексации файла PDF, который находится в секретной папке.
Основные поисковые запросы будут соответствовать установленным вами правилам. Однако имейте в виду, что правила, которые вы определяете в файле robots, могут быть не соблюдены.
Сканеры для вредоносного программного обеспечения и плохие поисковые системы могут не соответствовать вашим правилам и индексировать все, что они хотят. К счастью, основные поисковые системы следуют стандарту, включая Яндекс, Google, Bing.
Как создается файл Robots.txt
Это текстовый файл, который вы храните в главном каталоге вашего сайта. Однако нужно быть осторожными, убедитесь, что вы случайно не блокируете что-то важное. Вы можете легко заблокировать весь сайт от Яши и увидеть, как ваш трафик от их поиска исчезнет!
Для начала создается текстовый документ и сохраняется он как файл «robots.txt». Его необходимо загрузить в корневую папку site.ru/robots.txt (пишется адрес своего сайта, вместо site.ru). Поместив его в корневой каталог, поисковые системы и другие сканеры будут точно знать, где что искать, прежде чем они начнут индексировать ваш сайт.
Каждая запись в файле будет содержать строку User-agent, чтобы идентифицировать паука, который вы хотите проинструктировать, за которым следует одна или несколько Disallow:, чтобы сообщить об этом роботу, чего следует избегать. Давайте мы приведем примеры файла.
Пример 1
Если вы хотите, чтобы все ваши каталоги были доступны для индекса, может оказаться полезным простой файл роботов со следующим содержимым:
User-agent: * Disallow:
Пример 2
Этим примером вы можете блокировать определенные каталоги от индексирования. Это полезно, если у вас есть области администрирования, защищенные паролем или разделы тестирования вашего сайта, которые вы не хотите индексировать:
User-agent: * Disallow: /cgi-bin/ Disallow: /admin-area/ Disallow: /testing/test.htm
Пример 3
К примеру, вы заблокировали все ваши страницы от индексации, но хотите предоставить доступ Google, вы можете сделать это следующим способом:
User-agent: * Disallow: / User-agent: Googlebot Disallow: /cgi-bin/ Disallow: /testing/test.htm
Пример 4
К примеру, вы запретили роботам индексировать все ваши страницы. Как опять разрешить роботам сканировать ваши странички? Легко! Вам просто ничего не надо прописывать после Disallow:.
User-agent: * Disallow: / User-agent: Googlebot Disallow:
Общие ошибки при использовании robots.txt
Когда вы впервые создаете файл robots, вы можете сделать несколько распространенных ошибок:
- Очень легко оставить обратную косую черту в Disallow: /, которая блокирует указанный пользовательский агент от доступа к любому вашему контенту. Это особенно опасно для пауков поисковых систем, и они могут удалить ваш сайт из своего индекса. Так что проверьте ваш файл несколько раз.
- Если вы помещаете несколько каталогов для запрета на одну строку, robots.txt не будет функционировать должным образом, а некоторые папки будут сканироваться. Всегда указывайте каждый каталог на новой строке Disallow:.
Это были всего лишь примеры. Вы можете не создавать robots, а воспользоваться нашим, самым точным файлом:
User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: Ваш сайт.ru Sitemap: http://Ваш сайт/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Внимание! Вместо site.ru прописываем свой адрес сайта.
Мы надеемся, что это руководство подготовило вас к использованию файла robots.txt. А у нас на этом все. Всем пока!
С уважением Вячеслав и Валерия!
Спасибо огромное! Ваш файл действительно работает, нагрузка на сервер упала и он перестал лагать.
Ещё при создании сайта сделал этот файл, и если честно, то как-то особо и не вникал в подробности. Может попробую переделать по вашему примеру. У меня он немного не такой.
Взял на заметку, информация любопытная, как раз изучаю способы, уменьшения нагрузки на сайт.
Тоже долгое время не уделял внимания этому файлу (у меня его просто не было), но плотно занялся им как только узнал, что без его наличия (вместе с sitemap) поисковики не выводят в результатах поиска структурированнын данные сайтов/блогов.