vachevskiy.ru

Как создать файл robots txt для любого сайта? Правильный пример robots txt для wordpress

Сегодня я расскажу, как создать файл robots txt для wordpress. Этот пост, будет очень важным для тех, у кого до сих пор нет файла robots txt.

как создать файл robots txt для wordpress

Я постараюсь рассказать вам основные команды, которые используются в этом файле, чтобы вы могли составить самостоятельно robots txt а также покажу пример, каким должен быть правильный robots.txt для wordpress :smile:.

Дублированный контент является одной из причин всех санкций поисковых систем. Это, то же самое, что пойти на другой сайт, скопипастить оттуда статью и опубликовать на своем ресурсе. Таким образом, у вас появиться неуникальная информация, которую поисковики очень сильно не любят.

Но, самое страшное то, что многие новички даже не подозревают, что у них на блоге может быть дублированный контент. После создания блога, они просто начинают писать себе статьи. Пишут, пишут, а тут раз, и страницы вылетают из индексации :smile:. Потом они думают, почему мой сайт попал под АГС? Я же писал интересные, уникальные статьи для людей. Мой блог несет пользу людям. Да, возможно это правда, и я это понимаю, но поисковый робот, к сожалению, нет :smile:.

Перед тем, как я вам покажу, как создать файл robots txt для wordpress, давайте подумаем, откуда вообще могут взяться дубли на сайте.

1. Доступность ресурса по адресу c www и без www.

правильный robots.txt для wordpressНаберите сейчас в адресной строке www.site.ru и site.ru Вместо site.ru адрес своего блога. Если блог будет доступен по адресу c www и без www, значит, он полностью дублируется. Для того, чтобы избавиться от дубля, есть несколько вариантов. Но, самый надежный — это 301 редирект. Чтобы его настроить, откройте файл .htaccess, который находиться в корневой папке вашего сайта, и пропишите там вод такой код:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.vachevskiy.ru$ [NC]
RewriteRule ^(.*)$ http://vachevskiy.ru/$1 [R=301,L]

Этот код будет перенаправлять сайт с www. vachevskiy.ru на vachevskiy.ru. Только не забудьте вместо vachevskiy.ru указать адрес своего сайта.

2. Лишние переменные.
Это когда страница открыта для индексации по такому адресу

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta/

и по такому

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta/?replytocom=29#respond

Это две разные страницы для поискового робота, и последнюю, нужно закрывать от индексации. Как правильно это сделать, я объясню немножко позже.

3. Анонс новостей.
Возможно, вы замечали на многих блогах, что идет анонс статьи, картинка, а потом, кнопка читать далее. Так вот, этот анонс будет как раз таки дублированным контентом. Я, например, вообще не делаю анонсов. У меня идет заголовок, картинка и кнопка читать далее. Если вы решили делать анонсы, но старайтесь чтобы они были небольшие, поскольку запретить их индексацию в файле robots.txt невозможно.

Ну а вообще, сейчас я вам покажу правильный robots.txt для wordpress, который стоит на моем сайте. Вот пример robots txt:

User-agent: Yandex
Disallow: /wp-register.php
Disallow: /wp-content/themes
Disallow: /*?
Disallow: /webstat/
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /comments
Disallow: /wp-content/plugins
Disallow: /wp-admin/
Disallow: /feed/
Disallow: /wp-login.php
Disallow: /category/*/*
Disallow: /wp-includes/
Host: vachevskiy.ru

User-agent: *
Disallow: /wp-login.php
Disallow: /webstat/
Disallow: /feed/
Disallow: */trackback
Disallow: /wp-register.php
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: /wp-admin/
Disallow: /trackback
Disallow: /wp-includes/
Disallow: /comments

Sitemap: http://vachevskiy.ru/sitemap.xml
Sitemap: http://vachevskiy.ru/sitemap.xml.gz

Если у вас сайт на движке wordpress, и настроены ЧПУ, то можете смело ставить этот пример robots txt и не париться. Что значит, настроены ЧПУ? Если ссылка вод такая:

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta

то этот robots.txt подойдет. А если, например, такая (вот статья о том, как сделать ссылку):

http://www.mycharm.ru/articles/text/?id=2766

то нужно просто убрать из файла robots.txt вот эту строчку
Disallow: /*?*, поскольку она заблокирует индексацию всех страниц, где встречается знак вопроса «?». Ее нужно убрать в двоих местах.

Как составить правильный robots.txt самому?

robots.txt для wordpress

Если  у вас другая система управления сайтом, то я вам сейчас кратко расскажу основные команды для того, чтобы вы могли составить robots.txt для своего сайта самостоятельно. Итак, поехали.

Директива «User-agent» отвечает за то, к какому поисковому роботу вы обращаетесь.

  • User-agent: * — ко всем поисковикам;
  • User-agent: Yandex – только к Яндексу;
  • User-agent: Googlebot – только к Гуглу;

Директива «Disallow» закрывает страницы, категории или сайт от индексации.
Например, у меня есть на сайте вод такая страница http://vachevskiy.ru/search/ и я хочу закрыть ее от индексации всех поисковиков. В таком случаи нужно прописать следующее.

User-agent: *
Disallow: /search/

Если вы хотите закрыть весь сайт от индексации гуглом, то нужно прописать так:

User-agent: Googlebot
Disallow: /

А если, наоборот, хотите, чтобы весь сайт индексировался гуглом, то нужно прописать в файле robots.txt вод так:

User-agent: Googlebot
Disallow:

Таким образом, мы можем запретить индексировать сайт или страницу, яндексу и гулу отдельно, или всем поисковикам сразу.

Директива «Allow» разрешает индексировать сайт, категории или страницы.
Например, вы хотите запретить индексировать папку wp-includes всем поисковикам, но в этой папке хотите разрешить индексировать файл compat.php, тогда нужно прописать следующее:

User-agent: *
Disallow: /wp-includes/
Allow: /wp-includes/compat.php

Директива «Sitemap» позволяет указать карту сайта поисковым роботам:

User-agent: *
Sitemap: http://vachevskiy.ru/sitemap.xml

пример robots txt

Есть еще несколько директив, которые понимает только Яндекс.

Директива «Host» позволяет указать основной адрес сайта. С www или без www. Я указал без www.

User-agent: Yandex
Host: vachevskiy.ru

Директива «Crawl-delay» позволяет указать задержку, с которой поисковый робот будет отправлять вам команду. Если у вас большой сайт, то поисковик постоянным его штудированием может создать большую нагрузку на сервер. И чтобы этого не случилось, вы можете воспользоваться директивой «Crawl-delay»
Вод пример:

User-agent: Yandex
Crawl-delay: 3

Это значит, что интервал между посылками команды будет 3 секунды. Но опять же, это актуально только для яндекса.

Для того, чтобы без проблем самому составить файл robots.txt, очень важно научиться понимать некоторые спецсимволы. Адрес начинается с третьего слеша.

  • Символ * — любая, последовательность символов.
  • Символ $ — конец строки.

Я сейчас объясню, что это значит, и как эти символы использовать при составлении файла robots.txt
Сначала разберем, как использовать «*». Например, у меня есть дублирована страница

http://vachevskiy.ru/page?replytocom=29#respond

Для того, чтобы убрать ее с индекса нужно прописать следующее:

User-agent: *
Disallow: /*?*

Таким образом, я говорю поисковому роботу: «Если в URL страницы встретишь знак вопроса «?» то не индексируй ее. И неважно, какие символы стоят до знака вопроса и после него».
Потому что перед знаком вопроса и после него мы поставили звездочку «*». А она, в свою очередь, означает любую последовательность символов.

Ну а теперь разберем, как использовать символ $. Например, у нас есть вод такая страница

http://vachevskiy.ru/index.php

и мы хотим запретить поисковому роботу ее индексировать.
Для этого нужно прописать следующее

User-agent: *
Disallow: /*index.php$

Я говорю поисковикам: «Если index.php конец строки и неважно какие символы до index.php – не индексируй». Пояснил, как мог, если что-то не понятно, то спрашивайте в комментариях ;-).

Таким образом, зная всего лишь эти два спецсимволы, можно запрещать от индексации любую страницу или раздел сайта.

Как убедиться в том, что мы составили правильный robots.txt?

Для этого, прежде всего, нужно добавить сайт в яндекс вебмастер. Потом, нужно зайти в раздел: «Настройка индексирования» — «Анализ robots.txt».
яндекс вебмастер

После этого нужно загрузить файл robots.txt и нажать на кнопку проверить. Если вы увидите примерно такое сообщения, как на картинке, без ошибок, значит у вас правильный robots.txt для wordpress или другой системы управления.
как составить правильный robots.txt
Но мы еще можем проверить конкретную страницу. Например, я копирую url статьи, которая должна быть открыта для индексации, и проверяю, так ли это на самом деле.

Ну вод и все, наверное, что касается вопроса, как создать файл robots txt для wordpress. Да и не только для wordpress. Теперь вы должны уметь составить правильный robots.txt для любой системы управления :smile:.

1 звезда2 звезды3 звезды4 звезды5 звезд (2 оценок, среднее: 5.00 из 5)


  1. Александр пишет:

    Здравствуйте! Случайно зашел на ваш блог и вот никак не могу уйти, много полезной информации. Сразу подписался на обновления. У меня вот какой вопрос. При проверке файла robots.txt у меня выдают такую ошибку:

    Некорректный формат URL файла Sitemap

    Прочитал несколько статей на эту тему, но что конкретно делать, а главное как, так и не узнал.Может быть вы подскажете? Или напишите новый пост?!

  2. vachevskiy пишет:

    Александр, потому что вы поставили пробел после http://

  3. Александр пишет:

    Спасибо, не ожидал, что все так просто!

  4. Александра пишет:

    Подскажите, пожалуйста, зачем второй раз вводить карту сайта Sitemap: http:// vachevskiy.ru/sitemap.xml.gz и что такое gz?

    Так же хотелось узнать, прописано ли в вашем роботс запрет на дублирование страниц?

  5. vachevskiy пишет:

    Александра, форматы разные. Да прописано, страницы не дублируются.

  6. Юлия пишет:

    Отличная, полезная информация. Но печалит, что во многих статьях картинки не показываются. А так важно увидеть

  7. Лена пишет:

    Почему в примере robots txt не указан user-agent Googlebot?

  8. Максим пишет:

    Подскажите ваш фаил robots.txt который для wp сейчас актуален?

  9. Марина пишет:

    Добрый день! Если не сложно подскажите правильно ли я составила роботс на своём блоге, вот например я раньше ставила директиву для гугла Disallow: /wp-content/themes и гугл начал в панели вебмастера показывать что у меня блог не адаптирован для мобильных устройств, хотя сама тема у меня стоит с адаптивным дизайном. Директиву убрала показывает что адаптирован. Вобщем посоветуйте правильный роботс который актуален на данный момент. Спасибо.

  10. Ярослав пишет:

    Отличный пример файла, спасибо.

  11. Афанасий пишет:

    Здравствуте,Николай! Скажите,пожалуйста, файл robots.txt нужно прописывать так же в корневую папку в файле .htaccess?

    Вы говорите, что на вашем сайте стоит правильный robots.txt для wordpress и следует ли из этого, что я могу его у вас скопировать и поставить у себя?

  12. Влад пишет:

    Спасибо, я сайт на свой защищённый протокол перевёл поэтому добавил S

    Sitemap: https: . Так правильнее будет

Leave a Reply to Ярослав