Как найти дубли страниц на сайте

Сегодня я продолжаю тему о дублированном контенте. Вы, конечно, уже прочли мою предыдущую статью о видах дублированного контента, теперь самое время понять, как же искать все эти виды.

Я расскажу и о самых простых способах поиска дублей, для которых не нужно ничего устанавливать, и о некоторых программах и сервисах. Готовы? Поехали!

  1. Заходим в свой Вебмастер Гугла, потом идем по такому пути: Диагностика> Предложения HTML> и тут вам будут показаны адреса страниц с дублированными (и отсутствующими) мета тегами: заголовками и описаниями.

Для чего это нужно? У страниц-дублей имеются и одинаковые мета данные, и именно таким способом вы сможете их вычислить.

  1. Используем операторы Google. Во-первых, поиск по точному совпадению. Для этого берем часть текста со страницы (достаточно одной щепотки захотелось мне написать, но нет – достаточно одной строчки) и вводим в строку поиска в кавычках. Например:

Если дубли есть – то они вам явятся). Но: чтобы все было в лучшем виде, лучше проверить страницу несколько раз, то есть взять куски текста с разных ее частей. Так результат будет точнее. Я встречала случаи, когда по одному куску текста ничего, кроме проверяемой страницы не находится, а берешь другой – и вот, пожалуйста – целый букет.

Таким способом вы сможете, в основном, искать внешние дубликаты. Чтобы найти внутренние, полные или частичные, нужно искать по куску текста, но в пределах сайта. Тут снова помогут операторы Гугла. Набираем в поисковой строке:

site:vashsite.ru “текст со страницы”

Чтобы проверить статьи внутри блога, лучше всего брать начальные строки (если вы используете тег , конечно, если нет – то без разницы) – так можно узнать, где внутри вашего блога дублируются статьи/части статей и предотвратить остановить это.

  1. Онлайн поиск дублей – Copyscape. Этот сервис на английском языке, но разобраться в нем достаточно просто, он очень похож на обычный поисковик. Заходим, вписываем адрес проверяемой страницы и кликаем «Copyscape search». Тут появляются результаты поиска:

Нажимая на каждый результат, можно посмотреть страницу с похожим/идентичным текстом и процент совпадения.

До 30% совпадений – это нормально, ну более-менее. Конечно, все зависит от самого повторяющегося текста: если это календарь на блоге WordPress (а он тоже учитывается) – такое совпадение можно смело игнорировать.

  1. Mira Tools – тоже онлайн сервис, который покажет уникальность вашего текста, а НЕ страницы, поэтому сюда вводится именно текст (до 3000 символов). Для удобства здесь есть строка «Игнорируемый домен», сюда вводите сайт, текст с которого проверяете, чтобы он не учитывался как дубликат.



  1. Теперь о программах для поиска дублей. Сначала Advego Plagiatus, скачать которую бесплатно можно отсюда После скачивания устанавливаем и запускаем. Вводим адрес страницы, которую хотим проверить на уникальность, жмем голубую стрелочку справа и кнопочку «Проверить уникальность» (логично))).

Уникальность считается в процентах, а в конце выдается оценка. Например,



  1. Следующая программа для проверки уникальности текста – Antiplagiat (можно и онлайн, но нужно регистрироваться). Она похожа на Advego Plagiatus. Сюда тоже нужно ввести адрес проверяемой страницы, нажать на голубую стрелку, а потом на «Проверить уникальность» – и получить результат.



  1. Есть и другие, косвенные, способы обнаружить, что ваш текст кто-то скопировал. Например, анализ источников посещаемости сайта. Так, я недавно по Метрике нашла, что одну из моих статей (ТОП 10 расширений для Google Chrome, которые сделают вашу работу эффективнее), а точнее, ее половину, скопировали. Спасибо, что хоть со ссылкой на меня с анкором «Далее».


Маленький эксперимент

Я проверила на уникальность свою статью «Одна страница, разные тайтлы» всеми перечисленными мной способами и получила следующие результаты:

  1. Судя по Вебмастеру, внутренних дублей у меня вообще нет;
  2. Поиск с операторами Google: статья уникальна;
  3. Copyscape нашел только одно совпадение на 3% (название моей статьи как анкор ссылки с другого сайта), т.е. уникальность – 97%;
  4. Miratools – 100% уникальность;
  5. Advego Plagiatus: 77% уникальности. Часть неуникальна из-за анонса статьи в одном из rss агрегаторов, остальное – 2-6% совпадений по совершенно левым сайтам (даже 100500.tv затесался!);
  6. Antiplagiat – 89% (и снова же куча левых сайтов, один из них с фильмом «Пункт назначения» – да ладно?!).


Итак, что мы имеем.

  • Каждая программа оценивает текст и выдает результат в процентах.
  • Поскольку в Miratools текст вводится вручную, то некоторой погрешности можно избежать (не учитывается стандартный текст, характерный для того или иного типа сайта: например, календарь в WordPress )
  • Каждый способ по-своему хорош. Но не стоит использовать их все сразу.
  • С другой стороны, лучше использовать несколько способов в совокупности.

Лично я для поиска внешних и внутренних дублей использую операторы Google и сервис Copyscape – таким образом можно найти много чего «интересного».

На сегодня все. Не хочется с вами расставаться… и не нужно! Ищите меня в социальных сетях, делитесь этой (и не только этой) статьей с друзьями и подписывайтесь на обновления! Все это особенно полезно, так как в следующих статьях этой серии вы узнаете:

- О том, как бороться с дубликатами
- Об около 20 самых распространенных примерах дублированного контента

Если статья была для Вас полезной, не стесняйтесь ссылаться!

Если Вам понравилась статья, подпишитесь на обновления блога, и Вы будете всегда в курсе выхода новых материалов.

1 звезда2 звезды3 звезды4 звезды5 звезд! Ура! (18 голосов, оценка: 5.00 из 5)
Loading...
Последние комментарии

А что думаете Вы?

Ваш email не будет опубликован. Обязательные поля отмечены *

CommentLuv badge

Для любых предложений по сайту: [email protected]