Что такое дубли на сайте и как с ними бороться?

24 мая 202212 мин2 517 super_publications
Что такое дубли на сайте и как с ними бороться?
Содержание скрыть

Явные/неявные дубли (дубликаты) могут затруднить индексацию, помешать планам по продвижению и перегрузить вебмастера работой по их удалению. В этой статье мы расскажем, как избежать проблем и вовремя их устранить.

Дубли представляют собой страницы с похожим или одинаковым содержимым на одном и том же сайте. К основным причинам их появления относятся особенности работы CMS, ошибки в настройке 301-х редиректов либо в директивах robots.txt.

Возникновение дублей можно избежать на начальном этапе технической оптимизации домена, до индексации. Для каждого вида мы описали свои варианты профилактики. Если большая часть дублей сайта уже попала в индекс, можно распределить их по типам и устранить. Со временем поисковые системы будут постепенно удалять их из выдачи.

В чем опасность дублей

1. Некорректная идентификация релевантной страницы роботом поисковой системы

Например, одна и та же страница доступна по двум разным URL:

https://mysite.ru/kedy/ и https://mysite.ru/catalog/kedy/

Поясним на примере критичность ситуации. У специалиста есть отведенный бюджет для продвижения страницы https://mysite.ru/kedy/. Со временем на нее стали ссылаться тематические ресурсы, она вошла в топ-10. Но потом робот исключил ее из индекса и взамен добавил https://mysite.ru/catalog/kedy/. В итоге страница стала хуже ранжироваться и привлекать намного меньше трафика.

2. Увеличение количества времени для переобхода ресурса роботами

Для сканирования ресурса поисковым роботам выделяется краулинговый бюджет — максимальное количество страниц, которые они посещают за определенное время. Из-за слишком большого количества дублей на web-сайте робот может так и не дойти до основного контента, из-за чего индексация будет затянута. Данная проблема особенно актуальна для больших сайтов с огромным количеством страниц.

3. Наложение санкций поисковых систем (ПС)

Сами по себе дубли не считаются поводом для пессимизации ресурса, но это ровно до тех пор, пока алгоритмы не посчитают, что это делается намеренно, чтобы манипулировать выдачей.

4. Проблемы для web-мастера

Если работа над удалением дублей каждый раз откладывается, то в какой-то момент их может накопиться столько, что вебмастер чисто физически не сможет обработать все отчеты, найти и систематизировать причины дублей, внести корректировки. Также такой объем работы может повышать риск возникновения ошибок.

Основные виды явных дублей

Это такие дубли, при которых страница доступна по 2 и более URL.

1. URL со слешем/без него в конце

Приведем пример таких страниц: https://mysite.ru/lists/ и https://mysite.ru/lists.

Что делать

Следует настроить ответ сервера «HTTP 301 Moved Permanently».

Как

  • Найти и открыть в корневой папке файл .htaccess (при его отсутствии можно создать в формате TXT, задать имя .htaccess и поместить в корень ресурса);
  • прописать в файле команды для редиректа с URL со слешем на URL без него:
  • RewriteCond %{REQUEST_FILENAME} !-d
  • RewriteCond %{REQUEST_URI} ^(.+)/$
  • RewriteRule ^(.+)/$ /$1 [R=301,L]
  • обратная операция:
  • RewriteCond %{REQUEST_FILENAME} !-f
  • RewriteCond %{REQUEST_URI} !(.*)/$
  • RewriteRule ^(.*[^/])$ $1/ [L,R=301]
  • при создании файла с нуля все редиректы прописываются внутри таких строк:

<IfModule mod_rewrite.c>

</IfModule>

Настраивать 301-й редирект при помощи .htaccess актуально только для ресурсов на Apache. Для прочих серверов (например, nginx) нужно будет выбрать другой способ.

Если говорить о том, какой URL предпочтителен, то с технической точки зрения нет никакой разницы. Можно действовать исходя из сложившейся ситуации: если робот проиндексировал больше страниц без слеша, можно оставить этот вариант, и наоборот.

2. URL с WWW/без WWW

Приведем пример таких страниц: https://www.site.ru/111 и https://site.ru/111.

Что делать

Указываем на главное зеркало в Яндекс.Вебмастере, настраиваем 301-й редирект и канонические URL.

Как

Указываем главное зеркало:

  • переходим в Яндекс.Вебмастер и добавляем 2 версии ресурса — с WWW и без;
  • идем в «Панель», выбираем ресурс, с которого будет осуществляться перенаправление (обычно на URL без WWW);
  • заходим в раздел «Индексирование/Переезд сайта», убираем галку напротив графы «Добавить WWW», сохраняем изменения.
Переезд сайта

Примерно за 2 недели Яндекс склеит все зеркала и произведет индексацию, после чего в поиске будут только URL без WWW.

Важно! Раньше для указания на главное зеркало в robots.txt прописывали директиву Host. Сейчас она не поддерживается, однако часть специалистов до сих пор делают это для подстраховки. Хотя достаточно всего лишь настроить склейку в Вебмастере.

Как склеить зеркала в поисковой системе Google

Ранее было достаточно подтвердить права в Google Search Console сразу на 2 версии ресурса и указать для Google предпочтительный URL в разделе «Настройки web-сайта». С 2020 года эта схема не работает.

Указать поисковой системе на главное зеркало можно 2 нижеописанными способами.

  • Произвести настройку 301-го редиректа на предпочтительную версию ресурса. Если это не было сделано сразу после открытия сайта для индексации, следует проанализировать, каких страниц в индексе больше всего и настроить переадресацию на данный вариант URL.
  • Настроить канонические страницы в соответствии с рекомендациями Google: добавить в код тег <link> и использовать атрибут rel=»canonical» либо включить в ответ страниц HTTP-заголовок rel=canonical.

3. Адреса HTTP/HTTPS

Ресурсы с SSL-сертификатами имеют преимущество в результатах выдачи. Однако из-за возникновения ошибок при переходе на HTTPS появляются дубли.

Пример: http://site.ru и https://www.site.ru.

Что делать

1. Вначале необходимо проверить корректность склейки зеркал в Яндексе (процедура аналогична схеме с WWW/без WWW, разница в том, что в главном зеркале нужно поставить галку у варианта «Добавить HTTPS»).

Проверка корректности склейки зеркал

. Далее следует проверить правильность настройки редиректов. Частая причина дублей – ошибки в использованном коде.

Важно! Если после настройки HTTPS прошло меньше 14 дней, не стоит волноваться, нужно подождать еще пару недель. Иногда, чтобы убрать из индекса все старые адреса, поисковым системам требуется дополнительное время.

4. Адреса с GET-параметрами

Все, что стоит в URL после знака «?», называется GET-параметрами. Они разделены  знаком «&». Каждый новый адрес с GET-параметрами – дубль исходной страницы.

Примеры

Исходная страница: http://mysite.ru/cat5/goproo

URL с UTM-метками: http://mysite.ru/cat5/goproo?utm_source=google&utm_medium=cpc&utm_campaign=poisk

URL с тегом Google Ads: http://mysite.ru/cat5/goproo?gclid=Kamp1

URL с идентификатором сессии: http://mysite.ru/cat5/goproo?sid=x12k17p83

Что делать

Способ №1. Запретить индексацию страниц с GET-параметрами в robots.txt. Это будет выглядеть следующим образом (актуально для всех роботов):

User-agent: *

Disallow: /*?utm_source=

Disallow: /*&utm_medium=

Disallow: /*&utm_campaign=

Disallow: /*?sid=

Disallow: /*?gclid=

Способ №2. Яндекс поддерживает директиву Clean-param для robots.txt, в результате роботу поступает команда не производить индексацию страниц с GET-параметрами. Если исходная страница почему-то не проиндексирована, то робот все равно узнает о ней и добавит в индекс. Если закрывать от индексации страницы с GET-параметрами при помощи директивы Disallow, то робот не станет обращаться к ним, вследствие чего исходная страница останется не проиндексированной.

Но есть проблема: эта директива актуальна только для Яндекса, Google не поймет ее. Решением будет использование для Яндекса Clean-param, а для Google – Disallow:

User-agent: Yandex

Clean-param: utm_source&utm_medium&utm_campaign&sid&gclid

User-agent: Googlebot

Disallow: /*?utm_source=

Disallow: /*&utm_medium=

Disallow: /*&utm_campaign=

Disallow: /*?sid=

Disallow: /*?gclid=

5. Одинаковый товар, доступный по разным адресам

Пример: http://mysite.ru/catalog/sony-ps и http://mysite.ru/sony-ps.

Что делать

Произвести настройку атрибута rel=»canonical» (он указывает на каноническую, надежную страницу) для тега <link>. В результате именно такая страница будет в индексе.

Рассказываем на примере. Допустим, требуется указать роботу, чтобы он проиндексировал страницу http://mysite.ru/catalog/sony-ps. То есть она каноническая, а http://mysite.ru/sony-ps — копия. В данном случае в раздел копии (и остальных подобных, при наличии) следует добавить:

<link rel=»canonical» href=»http://mysite.ru/catalog/sony-ps» />

То есть со страницы-копии мы делаем ссылку на каноническую страницу, предназначенную для индексирования.

Rel=»canonical» настраивается с помощью средств PHP, встроенных функций CMS либо плагинов. Например, для WordPress существует плагин All in One SEO Pack, позволяющий управлять надежными URL в ручном/автоматическом режиме.

Настройка Rel="canonical"

6. Версии для печати

Так как основной текст версии для печати и исходной страницы совпадает, данные страницы будут считаться дублями.

Пример

Исходная страница: http://mysite.ru/article111.html

Версия для печати: http://mysite.ru/article111.html/?print=1

Еще один вариант реализации: http://mysite.ru/article111.html/print.php?postid=11

Что делать

Можно закрыть для робота доступ к версиям для печати в robots.txt. Если они выводятся через GET-параметр ?print, используем директиву Clean-param (для Яндекса) и Disallow (для Google):

User-agent: Googlebot

Disallow: /*?print=

User-agent: Yandex

Cleanparam: print

В первом примере реализации вывода текста на печать можно просто указать директиву Disallow для двух роботов:

Useragent: *

Disallow: /*print.php

Ищите свой формат работы с дублями!

Одни и те же дубли могут закрываться от индексации по-разному. Актуальна и канонизация, и директивы robots.txt, и редиректы, и метатег robots. Но стоит учитывать, что у каждого поисковика свои рекомендации. Например Google не приветствует закрытие доступа к дублям при помощи robots.txt либо robots со значениями «noindex,nofollow». Поисковая система предлагает использовать 301-й редирект и rel=»canonical». Для Яндекса же в приоритете robots.txt и директива Clean-param.

Задача специалиста заключается в поиске способов, которые актуальны в конкретном случае. Например, при ориентации на аудиторию Казахстана, Украины или стран Запада, желательно брать за основу рекомендации Google. Если речь о России, то будет оптимальным придерживаться рекомендаций Яндекса.

Чего точно не стоит делать – это закрывать дубли сразу всеми возможными инструментами. Это неверный подход, который может только запутать. Кроме этого лучше не перегружать сервер 301 редиректами, потому что это увеличивает нагрузку на него.

Неявные дубли

Это дубли, выдающие по разным URL не идентичный, а схожий контент.

1. Дубли древовидных комментариев (replytocom)

Эта проблема актуальна для ресурсов на WordPress. При ответе на комментарий к записи CMS генерирует новый URL. Чем больше пишут ответов, тем больше возникает дублей URL, которые в дальнейшем индексируются.

Что делать

Способ №1. Отключить древовидные комментарии: зайти в «Настройки»/«Обсуждение». Далее убрать галку напротив графы «Разрешить древовидные (вложенные) комментарии глубиной N уровней», сохранить внесенные изменения.

Удаление дублей древовидных комментариев

Но стоит знать, что в данном случае удобство комментирования несколько снижается. Поэтому рекомендуется выбирать другие способы.

Способ №2. Он не только устранит проблему с неявными дублями, но и сделает коммуникацию пользователей более удобной. Для этого необходимо выключить штатный модуль комментариев и установить Disqus (также можно использовать аналоги, например: Cackle Comments, wpDiscuz и пр.).

Способ №3. Он потребует привлечения программиста, который изменит в коде CMS способ формирования URL страниц с ответами на комментарии и закроет URL с replytocom от индексации при помощи метатега robots со значениями «noindex,nofollow».

2. Страницы продукции со схожими описаниями

Часто в ассортименте интернет-магазинов присутствуют товары, которые отличаются буквально парой характеристик (размером, цветом, узором, массой, материалом и т. п.). В итоге на сайте размещается большое число карточек товаров с однотипным контентом. В результате этого робот индексирует только 1 карточку, которую считает наиболее подходящей.

Что делать

Способ №1. Собрать однотипные товары в 1 карточке, для возможности выбора параметров добавить селектор. Это поможет избавиться от дублей и упростить навигацию по сайту.

Способ №2. Если предыдущий вариант по каким-то причинам нельзя реализовать, то можно уникализировать описание для всех однотипных товаров. Рекомендуется начать с наиболее значимых позиций, которые обеспечивают максимальную прибыль.

Способ №3. Если на разных карточках повторяется какая-то часть описания, которую нет смысла рерайтить (базовые параметры и т. п.), то можно скрыть эту часть от индексации при помощи тега: <!—noindex—>здесь повторяющийся текст<!—/noindex—>.

Различающиеся параметры товаров закрывать не стоит. Благодаря этому поисковым системам будет понятно, что это разные виды товаров. Этот вариант стоит рассматривать в качестве временного решения. Важно учитывать, что тег noindex воспринимает только Яндекс.

3. Страницы пагинации

При наличии большого каталога оптимально разбить его на страницы. Это и есть пагинация. Для скрытия таких страниц от индексации лучше всего использовать атрибут rel=»canonical» тега </code>. Канонической будет основная (главная) страница каталога.

Дополнительно обезопасить ресурс от возникновения дублей страниц пагинации в индексе можно с помощью генерации уникальной меты title и description и заголовков первого уровня (Н1) по следующему шаблону:

  • [Title осн. страницы пагинации] – № URL пагинации;
  • [Description осн. страницы пагинации] – № URL пагинации;
  • H1 осн. страницы пагинации – № URL пагинации.

При оптимизации следует учитывать следующие два момента. Во-первых, на страницы пагинации не нужно добавлять уникальный текстовый контент. Это будет лишней тратой времени и бюджета, ведь информация на этих страницах итак разная. Тут дело не в уникальном тексте, а в том, что пользователю нет смысла попадать из поиска на 4-ю или 9-ю страницу каталога. Он должен начать с начала, а потом решить, идти дальше или нет. Во-вторых, если на разводящих страницах сайта размещены SEO-тексты, они должны быть только на первой странице.

Итак, мы рассмотрели основные виды дублей. Но в целом вариантов может быть очень много. Главное — понимать, почему они возникают, при помощи каких инструментов выявить и как с ними бороться.

Как выявить дубли

  1. Способ №1. «Ручной»

Зная особенности CMS, можно найти дубли в поисковиках «руками». Для этого в поисковой строке нужно ввести запрос: site:{домен} inurl:{фрагмент URL}.

Например, если знать, что на ресурсе URL страниц пагинации формируются при помощи GET-запроса ?page=, то можно ввести в Google запрос и найти дубли. Это может помочь узнать, что в дублирующихся страницах есть запросы ?start=, ?limit=,?category_id=. По ним также надо проверить ресурс на наличие дублей. Все то же самое требуется проделать и в Яндексе. Этот способ актуален для экспресс-анализа, для системной работы лучше использовать другие способы.

  • Способ №2. Яндекс.Вебмастер

В разделе «Диагностика» можно найти сообщения о дублях страниц. Ниже приведен пример того, как выглядит уведомление о страницах с одинаковыми метатегами title и description.

Выявление дублей при помощи Вебмастера

Яндекс предупреждает о наличии страниц с незначащими GET-параметрами. Список страниц с одинаковыми title и description можно найти в разделе «Индексирование»/«Заголовки и описания». Если на сайте есть дубли метатегов, здесь будет выведена информация о числе затронутых страниц (аналогичное уведомление можно найти в разделе «Сводка»), рекомендации по исправлению. Таблицу с такими URL можно выгрузить в форматах CSV и XLS.

Одинаковые заголовки и описания страниц

Лучше всего не ждать уведомления и самостоятельно искать дубли при помощи Яндекс.Вебмастера. Алгоритм достаточно простой, необходимо:

  • перейти в раздел «Индексирование»/«Страницы в поиске»;
  • активировать вкладку «Все страницы», выгрузить отчет;
  • пройтись по списку и найти подозрительные URL. Для удобства можно использовать фильтры по частям URL, указывающим на дублирование.
  • Способ №3. Парсинг проиндексированных URL

Парсер проиндексированных страниц PromoPult позволит избежать ручной проверки индексации дублей.

Этапы:

  • выгрузка списка проиндексированных URL из Яндекс.Вебмастера;
  • загрузка этого списка в парсер;
  • запуск анализа, скачивание результата.

С помощью парсера от PromoPult можно понять, в каких поисковиках дублируются страницы. Это позволит выбрать оптимальные инструменты для удаления дублей.

Если нет возможности разбираться с дублями

При отсутствии желания или времени на поиск и устранение дублей можно заказать аудит сайта. Кроме этого можно получить массу полезной информации о сайте: наличие ошибок в HTML-коде, структуре, метатегах, заголовках, внутренней юзабилити, перелинковке, оптимизации контента и пр. Эксперты дадут готовые рекомендации, благодаря которым можно сделать свой ресурс более привлекательным для посетителей и повысить его позиции в поиске.

Полезное по теме

Продвижение сайта статьями
10 июня 202114 мин2 093
Продвижение сайта статьями
Продвижение сайтов статьями представляет собой методику привлечения трафика и раскрутку ресурса при помощи текстового контента. При грамотной реализации этого способа…
Читать далее →
Как покупать тизерные ссылки
3 сентября 20192 мин3 045
Как покупать тизерные ссылки
Как начать покупать тизеры? 1 Создайте проект Если у вас ещё нет проекта в Sape, первым шагом будет регистрация проекта…
Читать далее →
Как продвигать сайт по трафику: эффективные способы и действенные приемы
12 марта 20207 мин2 844
Продвижение сайта по трафику
Продвижение по трафику отличается от классических SEO-методов, которые были актуальны не так давно. Особый подход заключается в том, что оптимизатору…
Читать далее →