Главная » Ведение блога » Как создать файл robots txt для любого сайта? Правильный пример robots txt для wordpress

Как создать файл robots txt для любого сайта? Правильный пример robots txt для wordpress

как создать файл robots txt для wordpress

Всем привет, друзья! Сегодня я расскажу, как создать файл robots txt для wordpress. Этот пост, будет очень важным для тех, у кого до сих пор нет файла robots txt. Я постараюсь рассказать вам основные команды, которые используются в этом файле, чтобы вы могли составить самостоятельно robots txt а также покажу пример, каким должен быть правильный robots.txt для wordpress :smile:.

Дублированный контент является одной из причин всех санкций поисковых систем. Это, то же самое, что пойти на другой сайт, скопипастить оттуда статью и опубликовать на своем ресурсе. Таким образом, у вас появиться неуникальная информация, которую поисковики очень сильно не любят.

Но, самое страшное то, что многие новички даже не подозревают, что у них на блоге может быть дублированный контент. После создания блога, они просто начинают писать себе статьи. Пишут, пишут, а тут раз, и страницы вылетают из индексации :smile:. Потом они думают, почему мой сайт попал под АГС? Я же писал интересные, уникальные статьи для людей. Мой блог несет пользу людям. Да, возможно это правда, и я это понимаю, но поисковый робот, к сожалению, нет :smile:.

Перед тем, как я вам покажу, как создать файл robots txt для wordpress, давайте подумаем, откуда вообще могут взяться дубли на сайте.

1. Доступность ресурса по адресу c www и без www.

правильный robots.txt для wordpress Наберите сейчас в адресной строке www.site.ru и site.ru Вместо site.ru адрес своего блога. Если блог будет доступен по адресу c www и без www, значит, он полностью дублируется. Для того, чтобы избавиться от дубля, есть несколько вариантов. Но, самый надежный — это 301 редирект. Чтобы его настроить, откройте файл .htaccess, который находиться в корневой папке вашего сайта, и пропишите там вод такой код:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.vachevskiy.ru$ [NC]
RewriteRule ^(.*)$ http://vachevskiy.ru/$1 [R=301,L]

Этот код будет перенаправлять сайт с www. vachevskiy.ru на vachevskiy.ru. Только не забудьте вместо vachevskiy.ru указать адрес своего сайта.

2. Лишние переменные.
Это когда страница открыта для индексации по такому адресу

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta/

и по такому

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta/?replytocom=29#respond

Это две разные страницы для поискового робота, и последнюю, нужно закрывать от индексации. Как правильно это сделать, я объясню немножко позже.

3. Анонс новостей.
Возможно, вы замечали на многих блогах, что идет анонс статьи, картинка, а потом, кнопка читать далее. Так вот, этот анонс будет как раз таки дублированным контентом. Я, например, вообще не делаю анонсов. У меня идет заголовок, картинка и кнопка читать далее. Если вы решили делать анонсы, но старайтесь чтобы они были небольшие, поскольку запретить их индексацию в файле robots.txt невозможно.

Ну а вообще, сейчас я вам покажу правильный robots.txt для wordpress, который стоит на моем сайте. Вот пример robots txt:

User-agent: Yandex
Disallow: /wp-register.php
Disallow: /wp-content/themes
Disallow: /*?
Disallow: /webstat/
Disallow: */comments
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /comments
Disallow: /wp-content/plugins
Disallow: /wp-admin/
Disallow: /feed/
Disallow: /wp-login.php
Disallow: /category/*/*
Disallow: /wp-includes/
Host: vachevskiy.ru

User-agent: *
Disallow: /wp-login.php
Disallow: /webstat/
Disallow: /feed/
Disallow: */trackback
Disallow: /wp-register.php
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: /wp-admin/
Disallow: /trackback
Disallow: /wp-includes/
Disallow: /comments
Sitemap: http://vachevskiy.ru/sitemap.xml
Sitemap: http://vachevskiy.ru/sitemap.xml.gz

Если у вас сайт на движке wordpress, и настроены ЧПУ, то можете смело ставить этот пример robots txt и не париться. Что значит, настроены ЧПУ? Если ссылка вод такая:

http://vachevskiy.ru/kak-legko-uznat-i-proverit-tic-sajta

то этот robots.txt подойдет. А если, например, такая (вот статья о том, как сделать ссылку):

http://www.mycharm.ru/articles/text/?id=2766

то нужно просто убрать из файла robots.txt вот эту строчку
Disallow: /*?*, поскольку она заблокирует индексацию всех страниц, где встречается знак вопроса «?». Ее нужно убрать в двоих местах.

Как составить правильный robots.txt самому?

robots.txt для wordpress

Если  у вас другая система управления сайтом, то я вам сейчас кратко расскажу основные команды для того, чтобы вы могли составить robots.txt для своего сайта самостоятельно. Итак, поехали.

Директива «User-agent» отвечает за то, к какому поисковому роботу вы обращаетесь.

  • User-agent: * — ко всем поисковикам;
  • User-agent: Yandex – только к Яндексу;
  • User-agent: Googlebot – только к Гуглу;

Директива «Disallow» закрывает страницы, категории или сайт от индексации.
Например, у меня есть на сайте вод такая страница http://vachevskiy.ru/search/ и я хочу закрыть ее от индексации всех поисковиков. В таком случаи нужно прописать следующее.

User-agent: *
Disallow: /search/

Если вы хотите закрыть весь сайт от индексации гуглом, то нужно прописать так:

User-agent: Googlebot
Disallow: /

А если, наоборот, хотите, чтобы весь сайт индексировался гуглом, то нужно прописать в файле robots.txt вод так:

User-agent: Googlebot
Disallow:

Таким образом, мы можем запретить индексировать сайт или страницу, яндексу и гулу отдельно, или всем поисковикам сразу.

Директива «Allow» разрешает индексировать сайт, категории или страницы.
Например, вы хотите запретить индексировать папку wp-includes всем поисковикам, но в этой папке хотите разрешить индексировать файл compat.php, тогда нужно прописать следующее:

User-agent: *
Disallow: /wp-includes/
Allow: /wp-includes/compat.php

Директива «Sitemap» позволяет указать карту сайта поисковым роботам:

User-agent: *
Sitemap: http://vachevskiy.ru/sitemap.xml

пример robots txt

Есть еще несколько директив, которые понимает только Яндекс.

Директива «Host» позволяет указать основной адрес сайта. С www или без www. Я указал без www.

User-agent: Yandex
Host: vachevskiy.ru

Директива «Crawl-delay» позволяет указать задержку, с которой поисковый робот будет отправлять вам команду. Если у вас большой сайт, то поисковик постоянным его штудированием может создать большую нагрузку на сервер. И чтобы этого не случилось, вы можете воспользоваться директивой «Crawl-delay»
Вод пример:

User-agent: Yandex
Crawl-delay: 3

Это значит, что интервал между посылками команды будет 3 секунды. Но опять же, это актуально только для яндекса.

Для того, чтобы без проблем самому составить файл robots.txt, очень важно научиться понимать некоторые спецсимволы. Адрес начинается с третьего слеша.

  • Символ * — любая, последовательность символов.
  • Символ $ — конец строки.

Я сейчас объясню, что это значит, и как эти символы использовать при составлении файла robots.txt
Сначала разберем, как использовать «*». Например, у меня есть дублирована страница

http://vachevskiy.ru/page?replytocom=29#respond

Для того, чтобы убрать ее с индекса нужно прописать следующее:

User-agent: *
Disallow: /*?*

Таким образом, я говорю поисковому роботу: «Если в URL страницы встретишь знак вопроса «?» то не индексируй ее. И неважно, какие символы стоят до знака вопроса и после него».
Потому что перед знаком вопроса и после него мы поставили звездочку «*». А она, в свою очередь, означает любую последовательность символов.

Ну а теперь разберем, как использовать символ $. Например, у нас есть вод такая страница

http://vachevskiy.ru/index.php

и мы хотим запретить поисковому роботу ее индексировать.
Для этого нужно прописать следующее

User-agent: *
Disallow: /*index.php$

Я говорю поисковикам: «Если index.php конец строки и неважно какие символы до index.php – не индексируй». Пояснил, как мог, если что-то не понятно, то спрашивайте в комментариях ;-).

Таким образом, зная всего лишь эти два спецсимволы, можно запрещать от индексации любую страницу или раздел сайта.

Как убедиться в том, что мы составили правильный robots.txt?

Для этого, прежде всего, нужно добавить сайт в яндекс вебмастер. Потом, нужно зайти в раздел: «Настройка индексирования» — «Анализ robots.txt».
яндекс вебмастер

После этого нужно загрузить файл robots.txt и нажать на кнопку проверить. Если вы увидите примерно такое сообщения, как на картинке, без ошибок, значит у вас правильный robots.txt для wordpress или другой системы управления.
как составить правильный robots.txt
Но мы еще можем проверить конкретную страницу. Например, я копирую url статьи, которая должна быть открыта для индексации, и проверяю, так ли это на самом деле.

Ну вод и все, наверное, что касается вопроса, как создать файл robots txt для wordpress. Да и не только для wordpress. Теперь вы должны уметь составить правильный robots.txt для любой системы управления :smile:.

vachevskiy 6 сентября 2013
  1. Александр

    Здравствуйте! Случайно зашел на ваш блог и вот никак не могу уйти, много полезной информации. Сразу подписался на обновления. У меня вот какой вопрос. При проверке файла robots.txt у меня выдают такую ошибку:

    34: Sitemap: http:// blogbahta.ru/sitemap.xml.gz

    Некорректный формат URL файла Sitemap

    Прочитал несколько статей на эту тему, но что конкретно делать, а главное как, так и не узнал.Может быть вы подскажете? Или напишите новый пост?!

  2. vachevskiy

    Александр, потому что вы поставили пробел после http://

  3. Александр

    Спасибо, не ожидал, что все так просто!

  4. Подскажите, пожалуйста, зачем второй раз вводить карту сайта Sitemap: http:// vachevskiy.ru/sitemap.xml.gz и что такое gz?

    Так же хотелось узнать, прописано ли в вашем роботс запрет на дублирование страниц?

  5. vachevskiy

    Александра, форматы разные. Да прописано, страницы не дублируются.

  6. Юлия

    Отличная, полезная информация. Но печалит, что во многих статьях картинки не показываются. А так важно увидеть

  7. Лена

    Почему в примере robots txt не указан user-agent Googlebot?

  8. Максим

    Подскажите ваш фаил robots.txt который для wp сейчас актуален?

  9. Добрый день! Если не сложно подскажите правильно ли я составила роботс на своём блоге, вот например я раньше ставила директиву для гугла Disallow: /wp-content/themes и гугл начал в панели вебмастера показывать что у меня блог не адаптирован для мобильных устройств, хотя сама тема у меня стоит с адаптивным дизайном. Директиву убрала показывает что адаптирован. Вобщем посоветуйте правильный роботс который актуален на данный момент. Спасибо.

  10. Отличный пример файла, спасибо.

  11. Здравствуте,Николай! Скажите,пожалуйста, файл robots.txt нужно прописывать так же в корневую папку в файле .htaccess?

    Вы говорите, что на вашем сайте стоит правильный robots.txt для wordpress и следует ли из этого, что я могу его у вас скопировать и поставить у себя?

  12. Влад

    Спасибо, я сайт на свой защищённый протокол перевёл поэтому добавил S

    Sitemap: https: . Так правильнее будет