Главная » Ведение блога » Как найти и удалить дубли страниц на сайте

Как найти и удалить дубли страниц на сайте

как найти дубли страниц на сайте

Всем привет, друзья!
В данной статье я напишу о том, как найти дубли страниц на сайте в также как удалить их. Я покажу на примере этого блога, как я находил дубликаты и удалял. Если на вашем ресурсе присутствуют проблемы с индексацией, то советую прочитать этот пост внимательно и до конца.

Не секрет, что если на блоге есть дубликаты документов, то это плохо. Во-первых, дублируется сам контент на странице и таким образом он получается уже не уникальным. Во-вторых, бывает такое, что внутренние ссылки проставлены не на продвигаемые страницы, а на их дубликаты. Таким образом важные документы не получают тот вес, который они бы могли получить.

Перед тем, как перейти к поиску дублирующих документов, нужно прикинуть, сколько на сайте есть полезных для посетителя страниц. На моем блоге опубликована 81 статья, создано 7 категорий, и присутствует 12 страниц навигации + главная. Категории запрещены к индексации в robots.txt. Получается, что поисковики должны индексировать примерно 94 страницы. Теперь наша задача узнать, сколько документов проиндексировано на самом деле. И в этом нам поможет, конечно, RDS Bar:

как определить дубли страниц

Мы видим, что Яндекс индексирует 74 документа, а Гугл 400. Учитывая то, что Яндекс еще не успел проиндексировать несколько последних постов, а также некоторые страницы навигации он не индексирует, то можно сделать вывод, что в индексе Яндекса точно нет дубликатов. Теперь что касается Гугла. Мы видим, что он индексирует 400 страниц, но в основном индексе только 24%. Получается, что 97 страниц присутствуют в основном индексе, а 303 документа – это «сопли». Моя задача определить дубли страниц и удалить их с поиска Гугла. Но я также покажу, как находить дубликаты в Яндексе, возможно у вас, наоборот, с Гуглом все нормально, а Яндекс индексирует ненужные документы.

Итак, как определить дубли страниц на сайте

1. Для того, чтобы узнать, какие страницы присутствуют в основном индексе Гугла не включая «сопли», достаточно ввести вот такой адрес: site:vachevskiy.ru/&
А если нужно найти все страницы вместе с «соплями», нужно ввести вот так: site:vachevskiy.ru
В моем случае необходимо вводить как раз последний вариант. Ввожу site:vachevskiy.ru, дальше перехожу на самую последнюю страницу и нажимаю на ссылку «Показать скрытые результаты»:

дубли страниц

Мне прекрасно видно, что Гугл включает в дополнительный поиск даже те документы, которые запрещены в файле robots.txt:

Вот, например, адрес страницы, которая разрешена к индексированию выглядит так:

http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/

А вот эта страница появляется тогда, когда нажать на кнопку «Ответить», на последний комментарий:

http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/?replytocom=32

Почему закрытая страница вообще появляется в результатах поиска, для меня остается загадкой :smile::

дубли страниц на сайте

Как видим, вместо сниппета пишет: «описание веб-страницы недоступно из-за ограничений в файле robots.txt». То есть Гугл и не скрывает, что страница закрыта от индексации, но, с поиска ее почему-то не удаляет. Значит, будем искать другие варианты ее удаления, об этом я напишу немного позже.

С Яндексом все гораздо проще, там нет никаких «соплей», он или индексирует страницу или не индексирует. Причем, если документ запрещен в robots.txt, то он его индексировать не будет. Для того, чтобы узнать, какие страницы присутствуют в индексе Яндекса, достаточно ввести вот такой запрос: site:vachevskiy.ru
Если страниц на сайте немного, то можно пробежаться по заголовкам и легко определить дубликаты.

2. Найти дубли страниц на сайте можно также с помощью текста. Для этого откройте расширенный поиск в Яндексе, укажите в кавычках любой кусочек текста со станицы, которая уже проиндексировалась, и нажмите «найти»:

поиск Яндекса

Если на вашем блоге есть дубликат страницы, с которой был взять кусочек текста и эта страница также индексируется Яндексом, то вы увидите ее в результатах поиска. В моем случае дубликата нет, поэтому Яндекс показал мне только один документ:

поиск дубликатов

Точно также можно найти дубли страниц на сайте и в поисковой системе Google.

3. Определить дубли страниц можно и с помощью программы Xenu. О ней я уже писал в статье: «Как найти и удалить битые ссылки на сайте?» Сначала скачиваем программу, запускаем ее и выбираем в левом верхнем углу «File» — «Check URL». Дальше вводим адрес своего сайта и нажимаем «ОК»:

как найти дубликаты страниц

После анализа программа предложит создать карту сайта, лучше нажать нет и сохранить результаты на компьютер. Для этого нажмите «File» — «Export to TAB separated file». Программа нейдет все страницы, в том числе и с ошибками 404. Вам достаточно перейти на них и посмотреть, какие индексируются, а какие нет.

Как удалить дубли страниц

1) Файл robots.txt.
Этот файл предназначен исключительно для поискового бота, и с его помощью можно легко запретить индексировать отдельный документ, категорию или целый сайт. Советую вам прочитать статью о том, как создать файл robots.txt.

Для того чтобы увидеть, запрещена ли страница от индексации в файле robots.txt, достаточно открыть ее исходный код (Ctrl+U) и проверить наличие такой строчки:

<meta name='robots' content='noindex,nofollow' />

Если есть, значит, она индексироваться не должна, по крайней мере, Яндексом точно :smile:.

2. Параметры URL.
Помните, я писал выше, что Гугл индексирует на моем блоге вот эту страницу:

http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/?replytocom=32

Удалить ее с индекса Google можно с помощью параметров URL, для этого нужно, чтобы ваш ресурс был добавлен в Google Webmaster. Заходим в раздел «сканирование» и выбираем пункт «параметры URL». По умолчанию Google предложит вам параметры, которые желательно исключить с индекса.

поиск дубликатов

Если нужного параметра нет, то вы можете его создать. Для этого нажмите на кнопку «Добавление параметра», укажите параметр, который не должен присутствовать в URL. Для того чтобы убрать все ссылки, которые содержат параметр replytocom, нужно сделать вот так:

как удалить дубли страниц

Теперь через некоторое время эти ссылки должны перестать индексироваться Гуглом.

3. Удалить URL-адреса;
В Google webmaster также есть возможность удалить ненужные страницы вручную. Для этого переходим в раздел «Индекс Google» и выбираем «удалить URL-адреса». Потом нажимаем «Создать новый запрос на удаление», вводим дубликат страницы и нажимаем «Продолжить»:

дубли страниц

Но эта страница обязательно должна быть заблокирована в файле robots.txt или недоступна, иначе она может через некоторое время вновь появиться в результатах поиска.

Точно также документ можно удалить и с Яндекса. Для этого переходим в раздел «мои сайты» и справа внизу выбираем «удалить URL»:

удалить дубликаты

4. Атрибут rel=”canonical”.
Если на сайте присутствуют дубликаты страниц, то с помощью rel=”canonical” можно указать поисковикам, какой документ основной и должен участвовать в ранжировании.
Например, у меня есть основная страница такая:

http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/

а это ее дубликат:

http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/?replytocom=32

Мне нужно открыть эти две страницы и прописать там следующее:

<link href="http://vachevskiy.ru/kak-sozdat-gruppu-v-kontakte/" rel="canonical" />

Таким образом, робот будет понимать, какая страница должна получить вес и ранжироваться в поиске. Если у вас блог на движке wordpress, то в плагине all in one seo pack достаточно поставить галочку напротив надписи «Канонические URL'ы:». А если страницы созданы вручную, то нужно открыть их код и прописать канонический адрес. Или даже просто удалить дубли страниц вручную.

5. 301-редирект.
С помощью редиректа можно перенаправить как пользователя, так и поискового бота с одного документа на другой, таким образом, происходит склеивания документов. На моем блоге сделано перенаправление с www.vachevskiy.ru на vachevskiy.ru.

На этом все на сегодня. Теперь вы знаете, как найти и удалить дубли на сайте. Всем пока ;-).

vachevskiy 25 января 2014
  1. Подскажите пожалуйста, если на моем сайте изначально стоял роботс с Sitemap: http:// www., можно ли убрать www.? Это повлияет на что-то?

  2. vachevskiy

    Александр, нет, не повлияет ни на что. Главное чтобы было настроено зеркало сайта с www или без.

  3. Макс

    мой сайт индексируется с www и без www. В выдаче же нет ни одного сайта. Как запретить гуглу индексировать сайт с www? Это же дубликат получается?

  4. Благодарю! Почему мне раньше не попадался ваш сайт просто не знаю. Столько бы я времени сэкономил. Взял на вооружение в Хром RDS bar. Мне он больше нравиться, чем мозила или привык к нему.А тут такой подарок от вас. Теперь есть с помощью ваших советов и сайт вывести в люди.

  5. Спасибо!!!

  6. Большое спасибо, вы значительно сэкономили мое время. Дубли поднадоели, а их выявление раньше, занимало много времени. Полезная инфа