Команда Яндекса в блоге для вебмастеров рассказала о вреде дублей на сайте, как их обнаружить, и что с ними делать.

Дубли – это страницы сайта с одинаковым или практически полностью совпадающим контентом. Наличие таких страниц может негативно сказаться на взаимодействии сайта с поисковой системой.

Дубли могут замедлять индексирования нужных страниц и затрудняют интерпретацию данных веб-аналитики.

Дубли могут появиться на сайт в результате:

  • Автоматической генерации. Например, CMS сайта создает ссылки не только с ЧПУ, но и техническим адресом: https://site.ru/noviy-tovar и https://site.ru/id279382.
  • Некорректных настроек. К примеру, при неправильно настроенных относительных ссылках на сайте могут появляться ссылки по адресам, которых физически не существует, и они отдают такой же контент, как и нужные страницы сайта.
  • Ссылок с незначащими GET-параметрами. Подробнее об этом можно посмотреть тут).
  • Ссылок со слешем на конце и без. Для поисковой системы сайты https://site.ru/page и https://site.ru/pages/ – это разные страницы (исключение составляет только главная страница, между https://site.ru/ и https://site.ru разницы нет).

Как обнаружить дубли

В разделе «Диагностика» появилось специальное уведомление, которое расскажет про большую долю дублей на сайте. Алерт появляется с небольшой задержкой в 2-3 дня – это обусловлено тем, что на сбор достаточного количества данных и их обработку требуется время.

Подписываться на оповещения не нужно, уведомление появится само.

Чтобы найти дубли вручную, нужно:

  • перейти в Вебмастер;
  • во вкладке «Индексирование» открыть «Страницы в поиске»;
  • нажать на «Исключенные» в правой части страницы;
  • прокрутив вниз, в правом нижнем углу найти опцию «Скачать таблицу»;
  • выбрать подходящий формат и загрузить архив. У страниц-дублей будет статус DUPLICATE.

Как оставить в поиске нужную страницу в зависимости от ситуации

В случае с «мусорными» страницами Яндекс рекомендует воспользоваться одним из способов:

  1. Добавить в файл robots.txt директиву Disallow, чтобы запретить индексирование страницы-дубля;
  2. Либо запретить их индексирование при помощи мета-тега noindex. Тогда поисковой робот сможет исключить страницы из базы по мере их переобхода;
  3. Если такой возможности нет, можно настроить HTTP-код ответа 403/404/410. Данный метод менее предпочтителен, так как показатели недоступных страниц не будут учитываться, и если где-то на сайте или в поиске еще есть ссылки на такие страницы, пользователь попадет на недоступную ссылку.

В случае со страницами-дублями можно воспользоваться одним из способов:

  1. Для дублей с незначащими GET-параметрами добавить в файл robots.txt директиву Clean-param. Директива Clean-param – межсекционная. Это означает, что она будет обрабатываться в любом месте файла robots.txt. Указывать ее для роботов Яндекса при помощи User-Agent: Yandex не требуется;
  2. Установить редирект с HTTP-кодом 301 с одной дублирующей страницы на другую. В этом случае в поиске будет участвовать цель установленного редиректа. Важно указать предпочитаемый (канонический) адрес страницы, который будет участвовать в поиске;
  3. Использовать атрибут rel=«canonical». При работе с атрибутом rel=«canonical» стоит учитывать, что если содержимое дублей имеет некоторые отличия или очень часто обновляется, то такие страницы все равно могут попасть в поиск из-за различий в этом содержимом. В этом случае рекомендуется использовать другие предложенные варианты.

Для страниц со слешем на конце и без рекомендуется использовать редирект 301. Можно выбрать в качестве доступной как ссылку со слешем, так и без него – для индексирования разницы никакой нет.

В случае с важными контентыми страницами для их индексирования и представления в поиске важно использовать:

  1. Файлы Sitemap;
  2. Метрику;
  3. Установку счетчика;
  4. Настройку обхода страниц роботами.

Подробные рекомендации о работе со страницами-дублями читайте в Справке.

Источник: Блог Яндекса для вебмастеров

Adblock test (Why?)

Read More

Recent Posts

VK купила 40% билетной платформы Intickets.ru

VK объявляет о приобретении 40% компании Intickets.ru (Интикетс). Это облачный сервис для контроля и управления продажей билетов на мероприятия. Сумма…

6 часов ago

OpenAI готовится запустить поисковую систему на базе ChatGPT

OpenAI готовится запустить собственную поисковую систему на базе ChatGPT. Информацию об этом публикуют западные издания. Ожидается, что новый поисковик может…

15 часов ago

Роскомнадзор рекомендовал хостинг-провайдерам ограничить сбор данных с сайтов для иностранных ботов

Центр управления связью общего пользования (ЦМУ ССОП) Роскомнадзора рекомендовал компаниям из реестра провайдеров ограничить доступ поисковых ботов к информации на российских сайтах.…

2 дня ago

Apple возобновила переговоры с OpenAI и Google для интеграции ИИ в iPhone

Apple возобновила переговоры с OpenAI о возможности внедрения ИИ-технологий в iOS 18, на основе данной операционной системы будут работать новые…

6 дней ago

Российская «дочка» Google подготовила 23 иска к крупнейшим игрокам рекламного рынка

Конкурсный управляющий российской «дочки» Google подготовил 23 иска к участникам рекламного рынка. Общая сумма исков составляет 16 млрд рублей –…

7 дней ago

Google завершил обновление основного алгоритма March 2024 Core Update

Google завершил обновление основного алгоритма March 2024 Core Update. Раскатка обновлений была завершена 19 апреля, но сообщил об этом поисковик…

7 дней ago