Дубликаты на сайте: гайд по устранению проблемы

Представьте ситуацию: вам удалось доказать сотрудничество Google с инопланетными цивилизациями. Вы радостно потираете руки и готовите к релизу эксклюзивный контент. Но вместо нереального трафика и потока естественных ссылок по вашему сайту гуляет перекати-поле. Всё дело в том, что поисковый робот так и не проиндексировал вашу страницу из-за тысячи её дублей, вызванных проблемами с движком. В итоге сенсационная новость канула в лету.  

В данной статье вы узнаете, почему появляются дубли, каких видов они бывают, чем они опасны и как от них избавиться. А также узнаете, как отслеживать их в режиме реального времени с помощью Netpeak Spider.

Причины появления дублей

Прежде всего, дублями называют две страницы одного сайта, содержащие одинаковый или преимущественно похожий контент. Чаще всего это одна страница, доступная по разным URL-адресам.

Возникают дубли в следующих ситуациях:

  • Переезд сайта с протокола http на https без склейки. Для решения этого вопроса вам нужно настроить 301 редирект на https. Если же по каким-то причинам вы хотите отображать http-страницу, пропишите rel=canonical.
  • Ошибки содержимого: неправильно прописанные относительные ссылки, отсутствие текста.
  • Ошибки движка (CMS). Могут возникать по умолчанию при создании страниц для печати, архивов, страниц тегов.
  • Неправильные настройки фильтров на сайте вызывают либо полные, либо частичные дубли.
  • Неправильно настроена страница 404-й ошибки. Страница сайта должна быть доступна только по одному URL. Все остальные неканонические адреса должны выдавать либо 404-ю ошибку, либо 301 редирект.

дубликаты на сайте

В чем опасность наличия дублей на сайте?

  • Плохое качество индексации. Дубли — это балласт. Каким бы ни был ваш сайт, маленьким или большим, поисковые роботы затратят дополнительное время на их индексацию. Потенциально это может привести к ситуации, когда из-за расходов времени на дубли робот не проиндексирует действительно важные для вас и ваших пользователей страницы.

Более того, постоянно обнаруживая дубли, робот пессимизирует сайт и  уменьшит частоту своего посещения.

  • Утрата естественных ссылок. Допустим, у вас есть крутая и оригинальная статья о котах по адресу site.ru/kotiki/milahi — на неё имеется много ссылок, она отлично ранжируется, поскольку нравится пользователям. Вы переезжаете на другой домен newsite.ru/kotiki/milahi и не ставите 301 редирект со старой страницы на новую. В итоге люди по-прежнему ссылаются на старую страницу, которую вы больше не продвигаете (они могут даже не догадываться о том, что вы переехали), а новая не может нормально ранжироваться.
  • Определение нерелевантной страницы. Поисковые системы стремятся к тому, чтобы в ответ на запросы пользователей выдавался уникальный контент. Тем более с одного сайта. Поэтому если, например, Googlebot увидит, что одинаковый контент размещён на нескольких страницах вашего сайта, в выдаче он покажет только одну. Причем выбор бота не всегда совпадает с замыслом вебмастера. Так в поисковой выдаче может оказаться не та страница, которую вы продвигали (с настроенной ссылочной массой), а её неоптимизированный дубль. Вместо того, чтобы «накачать» важную страницу, поисковая система поделит сигналы между нею и дублями, а это значительно ослабит ранжирование.  

нетпик спайдер

Находим дубли:

  • Google Search Console, Яндекс.Вебмастер. Наверное, это самый простой способ проверки, но есть некоторые минусы: они ищут дубли только на проиндексированных страницах. Во-первых, это не позволяет проверить сайт на стадии разработки (до которого не добрались роботы). Во-вторых, поисковые роботы обходят сайты с определенной частотой, а значит, вы не сможете проверить свой сайт в режиме реального времени. Придётся работать с не совсем актуальными данными.
  • Программы для внутреннего аудита. В частности, Netpeak Spider позволяет отследить дубли мгновенно (так как он краулит самостоятельно) и помимо дублей в title находит и фильтрует частичные дубли в body, description, заголовков h1 и canonical URL.
  • Cвоими руками. Если у вас небольшой сайт, вы можете прописать в поисковике «site:mysite.ru» и самостоятельно проверить его на наличие дублей. Минусы в затратах времени и низком качестве (человек не робот, он чаще ошибается).

Виды дублей и их устранение

Определяем явные и неявные дубли:

  • Явные дубли имеют полностью идентичный контент. Ими бывают такие страницы: со слэшем в URL и без него, печатные версии, незначащие параметры, некорректные относительные адреса, страницы действий.
  • Неявные дубли имеют похожий контент. Это схожие товары, фотографии без описания, пагинация.

Устраняем дубли:

  • Дубли: со слэшем в конце и без. Настраиваем 301 редирект. Какую именно индексировать, со слэшем или без, решаете вы. Задайте себе вопрос: какая именно страница сейчас индексируется, каковы её позиции?
  • Печатные версии сайта. Ставим rel=canonical.
  • Незначащие параметры. Такие как utm-метки, sid. Есть два варианта: либо поставить rel=canonical, либо использовать директиву clean-param для robots.txt.

Clean-param лучше, поскольку даже если робот прежде не видел чистого URL (без utm-метки или сайда), он специально найдёт его на сайте и проиндексирует.

Иными словами, если робот сталкивается с незначащими параметрами на сайте и видит директиву clean-param, он обращается к своей внутренней базе и проверяет, есть ли чистая страница без этих параметров. Если она не была замечена роботом, он её индексирует, а параметры в расчёт не берёт.

  • Страницы действий вроде «add_basket», «add_compare», «comment» оформляем через javascript и избегаем прямых ссылок.
  • Некорректные относительные адреса. Например:

site.ru/церковь_трафика/свечку_за_баден_баден

site.ru/церковь_трафика/церковь_трафика/свечку_за_баден_баден

Во-первых, узнаём причину возникновения некорректных адресов. Во-вторых, настраиваем HTTP 404 код ответа.

  • Похожие товары. Затрудняют работу робота, поскольку мало не отличаются. Нужно установить селектор, чтобы можно было на одной странице выбрать все нужные параметры. Или разбавьте контент уточнениями, добавьте отзывы. Уточнение: если товары одной линейки имеют серьёзные отличия (тех.характеристики, цена и т.д.), лучше продвигать их на разных страницах, раскачивая их полезным контентом, отзывами, информацией о товаре.
  • Фотографии без описания. Добавляем описания, теги, отзывы.
  • Пагинация.

— Google советует прописывать атрибуты rel=prev / rel=next.

— Yandex же предлагает указывать rel=canonical на первую страницу.

Делаем выводы

Каждый сайт подвержен возникновению дублей, которые провоцируют плохую индексацию сайта, утрату трафика и естественных ссылок. Поэтому пускай 301 редирект, rel=canonical и rel=prev / rel=next станут вашими лучшими друзьями — без них не обойтись. Что именно прописывать — редирект или canonical — решать вам, поскольку ситуации бывают разными, а мы знаем, что даже самое незначительное изменение способно повлиять на место в поисковой выдаче.

А какие, по-вашему, варианты дублей бывают ещё? Как справляетесь с ними?

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *