Как удалить дубли с сайта

Борьба с дубликатами на сайтеВы знаете, что на любом сайте можно найти дубли? Конечно, если их никто до этого не поборол. Вот именно сейчас я и расскажу, как их удалить раз и… ненавсегда, конечно, так как появляются новые и новые. Этот вопрос нужно постоянно контролировать. Своевременная реакция на существующие дубликаты, а также предотвращение новых окупится, поверьте.

Немного резюме (“В предыдущих сериях” :) ): мы уже узнали о видах дублей и их примерах, о том, чем же они угражают сайту; о том, как найти дубликаты, которые, конечно же, не хотят быть найденными. Они хотят натравить на вас Google Panda.

Все последствия дублированного контента понятны, но от этого совсем не легче. Значит, нужно бороться и брать контроль над индексацией сайта в свои руки.

Методы борьбы с внутренними дубликатами

  • 404 ошибка
  • Это простое удаление страницы-дубликата. Подойдет этот метод только в том случае, если страница не несет никакой пользы для посетителей сайта. Дополнительно можно удалить эту страницу из индекса в Вебмастере Google. Важно, чтобы никакие другие страницы сайта не ссылались на удаленную, а то робот снова и снова будет пытаться ее проиндексировать и исправно выдавать ошибку индексации в Вебмастере, а на сайте – 404 (404 страницу еще нужно красиво оформить). Если все сделано правильно – через некоторое время страница канет в Лету.

    Плюс: нет страницы-дубликата – нет проблем.

    Минус: страница должна быть совершенно бесполезной (а зачем такие создавать?), и на нее не должно быть никаких ссылок.


  • 301 редирект
  • Он означает, что страница перемещена навсегда (в отличие, от 302, когда страница перемещается временно). 301 редирект подходит, если страница-дулибкат не совсем уж бесполезная, а наоборот – приносит трафик и имеет обратные ссылки. Он передает вес с одной страницы на другую. Но вопреки распространенному заблуждению, вес передается не полностью, какая-то его часть все же теряется. Прописать 301 редирект можно в файле .htaccess, в общем виде он будет таким:

    RedirectPermanent /old-page http://www.site.ru/new-page/

    301 редирект подходит не только для того, чтобы справиться с дублированным контентом, но еще и с временными страницами (например, страницами акций на сайте, которые не хранятся в архивах, а просто удаляются и выдают 404 ошибку), которые снова же могут иметь обратные ссылки. Такие страницы лучше перенаправлять на другие наиболее релевантные страницы сайта. Если таковых нет – можно и на главную.

    Плюс: склеивает страницы, он универсален и хорошо подойдет также для решения проблемы сайта с www и без www.

    Минус: 301 редирект делает недоступной ту страницу, с которой он направлен. Но если вам это и нужно – то это совсем не минус.


  • Rel=сanonical
  • С 2009 года Google, а позже и Яндекс ввел этот тег. Он указывает поисковым роботам, какая из 2 и более страниц должна ранжироваться. Каноникл прописывается в теге <head> каждой из страниц, для которых он применяется. Выглядит он так:

    <link rel="canonical" href="http://www.vash-site/kanon" />

    Важно, чтобы каждая из канонизируемых страниц (т.е. на которой прописан тег rel=canonical), указывала на одну и ту же страницу (которая и будет ранжироваться), но ни в коем случае не на себя саму, а то потеряется весь смысл. Когда робот приходит на страницу с тегом rel=сanonical, он как бы присоединяет эту страницу к той, что указана в тэге, склеивает их. Таким образом, если вы наберете в Гугле cache:site.ru/stranitsa-dublicat, а кэш увидите для site.ru/kanon – вы все сделали правильно.

    Плюс: две и более страниц будут доступны пользователям на сайте, но только одна – поисковикам, и это без какого-либо мошенничества.

    Минус: не вижу минусов. Кто подскажет?


  • Robots.txt
  • Страницы-дубликаты можно запретить и в файле robots.txt. Таким образом, они не будут индексироваться поисковыми роботами, но будут доступны на сайте.

    Плюс: несложность в обращении.

    Минус: нужно хорошенько разобраться, что запрещать и как это отразить в robots.txt, чтобы ненароком не запретить индексацию части сайта или всего сайта целиком. Более того, запрещение уже проиндексированных страниц в robots.txt не удаляет их из индекса, это придется делать вручную в Вебмастере, что совсем неудобно, когда таких страниц много.

    Отсюда вывод: лучше всего запрещать «неугодные» страницы заранее и делать это осторожно.


  • Meta Robots
  • Контролировать индексацию сайта можно и с помощью meta robots: INDEX/NOINDEX и FOLLOW/NOFOLLOW. Обычно по умолчанию для каждой страницы стоит INDEX, FOLLOW, что означает: страница индексируется и робот проходит по ссылкам с нее. Чтобы избавиться от страницы-дубликата, можно заключить ее в теги NOINDEX,NOFOLLOW (страница не индексируется, и робот не проходит по ссылкам с нее), но еще лучше – NOINDEX, FOLLOW (страница не индексируется, но робот проходит по расположенным на ней ссылкам).

    В WordPress существует специальный плагин – WordPress Meta Robots – он поможет настроить meta robots для каждой страницы или записи.

    Заключение страницы в теги NOINDEX, FOLLOW хорошо подойдет для страниц с нумерацией (это один из способов борьбы с дублями на них).

    Плюс: этот мета тег еще легче, чем robots.txt, потому что прописывается на отдельной странице, и тут уже случайно не запретишь индексацию целого раздела.

    минус: в идеале, конечно, роботы правильно должны понять то, что вы хотите до них донести. Но, бывает, страницы с NOINDEX все равно попадают в индекс.


  • Удаление страницы из индекса в Вебмастере Google
  • Этот инструмент удаления страниц находится в Вебмастере> Конфигурация сайта> Доступ робота> Удалить URL. Этим инструментом нужно пользоваться в последнюю очередь и лучше в совокупности с другими мерами. Основанием для удаления страниц (для Гугла) может послужить несколько вещей: если страницы выдают 404 ошибку, если они запрещена в robots.txt или с помощью meta robots. Если же страницы нигде не запрещены, Гугл, конечно удалит их, если вы попросите, но всего на 90 дней.

    Плюс: ускорение удаления страниц из индекса, если вы где-то их уже запретили.

    Минус: трудозатратность, так как каждый URL добавляется в очередь на удаление вручную, а это может занять много времени. Так что если в индексе ненужных страниц много – удалять каждую из них вручную не вариант.


  • Блокирование параметров в Вебмастере Google
  • Заходим в Вебмастер> Конфигурация сайта > Параметры URL

    Запрещение индексации динамических параметров в Гугл

    Тут можно найти список динамических параметров, которые робот Гугла обнаружил на вашем сайте, а также правила их индексирования. По умолчанию Гугл сам решает, индексировать ли ему страницы с динамическими параметрами в адресах (тут не отображается запрещение индексации с помощью других средств, например robots.txt). Индексацию можно запретить, выбрав вариант «Нет», который подразумевает, что добавление параметров к адресу страницы не изменяет ее содержимое, то есть – создает дубликат.

    Плюс: вы легко можете запретить индексацию страниц с динамическими параметрами, которые обычно являются головной болью (например, replytocom на WP). Еще в этом туле можно найти такие параметры, о существовании на сайте которых вы и не догадывались.

    Минус: такое запрещение понимает только Google, а это значит, что Яндекс все равно проиндексирует страницы с динамическими параметрами, если не приняты другие меры (тот же robots.txt).


  • Rel=Prev и Rel=Next
  • В сентябре 2011 года Google ввел rel=Prev и rel=Next, которые призваны помочь вебмастерам справиться с дублированным контентом при наличии страниц с нумерацией.

    Как и все другие мета данные, эти теги прописываются в <head> страниц. Суть такова:

    rel=prev и rel=next

    Плюс: вы сообщаете Google, что у вас есть страницы с нумерацией, чтобы он не считал их дубликатами.

    Минус: снова же эти теги поддерживает на данный момент только Гугл. Некоторые не считают этот способ подходящим для борьбы с дублями, так как вес всех страниц, на которых стоит rel=Prev и rel=Next, распределяется равномерно, то есть теоретически 15ая страница имеет такие же шансы ранжироваться, как и 1ая.

    Борьба с внешними дублями

    Внешние дубли, в основном, созданы не вебмастерами, но именно им приходится бороться с таким явлением. И вот некоторые способы.


  • Метатеги атрибута источника
  • В ноябре 2010 года Гугл ввел мета теги атрибута источника. Он применяется для новостей, обзоров, которые часто перепубликовываются на разных сайтах. Выглядит мета тег атрибута источника так:

    <meta name="syndication-source" 
    content="http://www.primer.ru/pervoistochnik.html">

    Этот тег проставляется в теге <head> страницы, которая копирует текст, а в content указывается первоисточник.

    Плюс: данный мета тег решает проблему многочисленных внешних дублей.

    Минус: мета теги атрибута источника поддерживаются только Google.


  • Кросс-доменный rel-canonical
  • Система та же, что и rel-canonical внутри сайта: дубликат канонизирует первоисточник какого-либо текста, новости.

    Плюс: независимо от наличия внешних дублей, ваш сайт не пострадает.

    Минус: поддерживается только Google (где-то я это уже слышала).

  • Радоваться, получив обратные ссылки
  • Все знают, что бывает очень сложно заставить воров контента удалить его со своих сайтов. Поэтому можно найти для себя утешение: обратные ссылки с их сайтов, так как многие воры не только оставляют ссылки на ваш сайт в тексте скопированных статей, но и не закрывают их от индексации. Поэтому (ну и не только поэтому, конечно) не забываем делать внутреннюю перелинковку между своими страницами и статьями.

    Напоследок

  • Ссылки на страницы-дубликаты
  • Когда страницы-дубликаты «устранены», нужно перестать на них ссылаться как с внешних источников, так и с самого сайта. Если вы поставили 301 редирект (или rel=canonical) – ссылайтесь на страницу, на которую он направлен, чтобы получить максимальный эффект. Запретив индексировать страницу, но ссылаясь на нее с внешних источников, вы передаете поисковикам противоречивые указания, что может вызвать проблемы.

  • Ничего не предпринимайте
  • Можно просто закрыть глаза на дублированный контент и надеяться, что поисковики сами поймут, что нужно индексировать, а что нет. Это хороший выход, если у вас всего несколько страниц-дубликатов, но это может обернуться неприятностями, если сайт большой и на нем много таких страниц, или если ваш сайт безжалостно копируют. В конечном итоге – решать вам.

    Что сказать напоследок? Каждый из нас хочет быть уникальным и ни на кого не похожим, чем же наши сайты хуже? Они тоже должны быть единственными в своем роде, так что не копируйте их и другим не позволяйте! И да, подписывайтесь на обновления Блога SEO сектанта!

    Если статья была для Вас полезной, не стесняйтесь ссылаться!

    Если Вам понравилась статья, подпишитесь на обновления блога, и Вы будете всегда в курсе выхода новых материалов.

    1 звезда2 звезды3 звезды4 звезды5 звезд! Ура! (10 голосов, оценка: 5.00 из 5)
    Loading...Loading...
    Последние комментарии

    А что думаете Вы?

    Ваш email не будет опубликован. Обязательные поля отмечены *

    CommentLuv badge