
Как встроить видео TikTok в WordPress
Приветствуем вас! Зачем нужен файл robots.txt для сайта? Во, первых боты, пауки и другие сканеры, попадающие на ваши динамические страницы, могут привести к большой нагрузке на сервер и замедлить работу вашего сайта.
Один из способов уменьшить нагрузку на сервер от ботов, пауков и других паразитов – создать этот файл в корне вашего сайта. К примеру, спам-бот пытается попасть в вашу контактную форму с нежелательным спамом, в таких случаях вы можете заблокировать ему доступ к вашему сайту с помощью этого чудесного файлика.
Во, вторых это говорит поисковым системам, какой контент на вашем сайте они должны и не должны индексировать. Например, вы можете остановить поисковую систему от обхода вашей папки с изображениями или индексации файла PDF, который находится в секретной папке.
Основные поисковые запросы будут соответствовать установленным вами правилам. Однако имейте в виду, что правила, которые вы определяете в файле robots, могут быть не соблюдены.
Сканеры для вредоносного программного обеспечения и плохие поисковые системы могут не соответствовать вашим правилам и индексировать все, что они хотят. К счастью, основные поисковые системы следуют стандарту, включая Яндекс, Google, Bing.
Как создается файл Robots.txt
Это текстовый файл, который вы храните в главном каталоге вашего сайта. Однако нужно быть осторожными, убедитесь, что вы случайно не блокируете что-то важное. Вы можете легко заблокировать весь сайт от Яши и увидеть, как ваш трафик от их поиска исчезнет!
Для начала создается текстовый документ и сохраняется он как файл «robots.txt». Его необходимо загрузить в корневую папку site.ru/robots.txt (пишется адрес своего сайта, вместо site.ru). Поместив его в корневой каталог, поисковые системы и другие сканеры будут точно знать, где что искать, прежде чем они начнут индексировать ваш сайт.
Каждая запись в файле будет содержать строку User-agent, чтобы идентифицировать паука, который вы хотите проинструктировать, за которым следует одна или несколько Disallow:, чтобы сообщить об этом роботу, чего следует избегать. Давайте мы приведем примеры файла.
Пример 1
Если вы хотите, чтобы все ваши каталоги были доступны для индекса, может оказаться полезным простой файл роботов со следующим содержимым:
User-agent: * Disallow:
Пример 2
Этим примером вы можете блокировать определенные каталоги от индексирования. Это полезно, если у вас есть области администрирования, защищенные паролем или разделы тестирования вашего сайта, которые вы не хотите индексировать:
User-agent: * Disallow: /cgi-bin/ Disallow: /admin-area/ Disallow: /testing/test.htm
Пример 3
К примеру, вы заблокировали все ваши страницы от индексации, но хотите предоставить доступ Google, вы можете сделать это следующим способом:
User-agent: * Disallow: / User-agent: Googlebot Disallow: /cgi-bin/ Disallow: /testing/test.htm
Пример 4
К примеру, вы запретили роботам индексировать все ваши страницы. Как опять разрешить роботам сканировать ваши странички? Легко! Вам просто ничего не надо прописывать после Disallow:.
User-agent: * Disallow: / User-agent: Googlebot Disallow:
Общие ошибки при использовании robots.txt
Когда вы впервые создаете файл robots, вы можете сделать несколько распространенных ошибок:
- Очень легко оставить обратную косую черту в Disallow: /, которая блокирует указанный пользовательский агент от доступа к любому вашему контенту. Это особенно опасно для пауков поисковых систем, и они могут удалить ваш сайт из своего индекса. Так что проверьте ваш файл несколько раз.
- Если вы помещаете несколько каталогов для запрета на одну строку, robots.txt не будет функционировать должным образом, а некоторые папки будут сканироваться. Всегда указывайте каждый каталог на новой строке Disallow:.
Это были всего лишь примеры. Вы можете не создавать robots, а воспользоваться нашим, самым точным файлом:
User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: Ваш сайт.ru Sitemap: http://Ваш сайт/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/
Внимание! Вместо site.ru прописываем свой адрес сайта.
Мы надеемся, что это руководство подготовило вас к использованию файла robots.txt. А у нас на этом все. Всем пока!
С уважением Вячеслав и Валерия!
Спасибо огромное! Ваш файл действительно работает, нагрузка на сервер упала и он перестал лагать.
Ещё при создании сайта сделал этот файл, и если честно, то как-то особо и не вникал в подробности. Может попробую переделать по вашему примеру. У меня он немного не такой.
Взял на заметку, информация любопытная, как раз изучаю способы, уменьшения нагрузки на сайт.