Дубликаты на сайте: гайд по устранению проблемы

Представьте ситуацию: вам удалось доказать сотрудничество Google с инопланетными цивилизациями. Вы радостно потираете руки и готовите к релизу эксклюзивный контент. Но вместо нереального трафика и потока естественных ссылок по вашему сайту гуляет перекати-поле. Всё дело в том, что поисковый робот так и не проиндексировал вашу страницу из-за тысячи её дублей, вызванных проблемами с движком. В итоге сенсационная новость канула в лету.

В данной статье вы узнаете, почему появляются дубли, каких видов они бывают, чем они опасны и как от них избавиться. А также узнаете, как отслеживать их в режиме реального времени с помощью Netpeak Spider.

Причины появления дублей

Прежде всего, дублями называют две страницы одного сайта, содержащие одинаковый или преимущественно похожий контент. Чаще всего это одна страница, доступная по разным URL-адресам.

Возникают дубли в следующих ситуациях:

Переезд сайта с протокола http на https без склейки. Для решения этого вопроса вам нужно настроить 301 редирект на https. Если же по каким-то причинам вы хотите отображать http-страницу, пропишите rel=canonical.
Ошибки содержимого: неправильно прописанные относительные ссылки, отсутствие текста.
Ошибки движка (CMS). Могут возникать по умолчанию при создании страниц для печати, архивов, страниц тегов.
Неправильные настройки фильтров на сайте вызывают либо полные, либо частичные дубли.
Неправильно настроена страница 404-й ошибки. Страница сайта должна быть доступна только по одному URL. Все остальные неканонические адреса должны выдавать либо 404-ю ошибку, либо 301 редирект.

В чем опасность наличия дублей на сайте?

Плохое качество индексации. Дубли — это балласт. Каким бы ни был ваш сайт, маленьким или большим, поисковые роботы затратят дополнительное время на их индексацию. Потенциально это может привести к ситуации, когда из-за расходов времени на дубли робот не проиндексирует действительно важные для вас и ваших пользователей страницы.

Более того, постоянно обнаруживая дубли, робот пессимизирует сайт и уменьшит частоту своего посещения.

Утрата естественных ссылок. Допустим, у вас есть крутая и оригинальная статья о котах по адресу site.ru/kotiki/milahi — на неё имеется много ссылок, она отлично ранжируется, поскольку нравится пользователям. Вы переезжаете на другой домен newsite.ru/kotiki/milahi и не ставите 301 редирект со старой страницы на новую. В итоге люди по-прежнему ссылаются на старую страницу, которую вы больше не продвигаете (они могут даже не догадываться о том, что вы переехали), а новая не может нормально ранжироваться.
Определение нерелевантной страницы. Поисковые системы стремятся к тому, чтобы в ответ на запросы пользователей выдавался уникальный контент. Тем более с одного сайта. Поэтому если, например, Googlebot увидит, что одинаковый контент размещён на нескольких страницах вашего сайта, в выдаче он покажет только одну. Причем выбор бота не всегда совпадает с замыслом вебмастера. Так в поисковой выдаче может оказаться не та страница, которую вы продвигали (с настроенной ссылочной массой), а её неоптимизированный дубль. Вместо того, чтобы «накачать» важную страницу, поисковая система поделит сигналы между нею и дублями, а это значительно ослабит ранжирование.

Находим дубли:

Google Search Console, Яндекс.Вебмастер. Наверное, это самый простой способ проверки, но есть некоторые минусы: они ищут дубли только на проиндексированных страницах. Во-первых, это не позволяет проверить сайт на стадии разработки (до которого не добрались роботы). Во-вторых, поисковые роботы обходят сайты с определенной частотой, а значит, вы не сможете проверить свой сайт в режиме реального времени. Придётся работать с не совсем актуальными данными.
Программы для внутреннего аудита. В частности, Netpeak Spider позволяет отследить дубли мгновенно (так как он краулит самостоятельно) и помимо дублей в title находит и фильтрует частичные дубли в body, description, заголовков h1 и canonical URL.
Cвоими руками. Если у вас небольшой сайт, вы можете прописать в поисковике «site:mysite.ru» и самостоятельно проверить его на наличие дублей. Минусы в затратах времени и низком качестве (человек не робот, он чаще ошибается).

Виды дублей и их устранение

Определяем явные и неявные дубли:

Явные дубли имеют полностью идентичный контент. Ими бывают такие страницы: со слэшем в URL и без него, печатные версии, незначащие параметры, некорректные относительные адреса, страницы действий.
Неявные дубли имеют похожий контент. Это схожие товары, фотографии без описания, пагинация.

Устраняем дубли:

Дубли: со слэшем в конце и без. Настраиваем 301 редирект. Какую именно индексировать, со слэшем или без, решаете вы. Задайте себе вопрос: какая именно страница сейчас индексируется, каковы её позиции?
Печатные версии сайта. Ставим rel=canonical.
Незначащие параметры. Такие как utm-метки, sid. Есть два варианта: либо поставить rel=canonical, либо использовать директиву clean-param для robots.txt.

Clean-param лучше, поскольку даже если робот прежде не видел чистого URL (без utm-метки или сайда), он специально найдёт его на сайте и проиндексирует.

Иными словами, если робот сталкивается с незначащими параметрами на сайте и видит директиву clean-param, он обращается к своей внутренней базе и проверяет, есть ли чистая страница без этих параметров. Если она не была замечена роботом, он её индексирует, а параметры в расчёт не берёт.

Страницы действий вроде «add_basket», «add_compare», «comment» оформляем через javascript и избегаем прямых ссылок.

Некорректные относительные адреса. Например:

– site.ru/церковь_трафика/свечку_за_баден_баден

– site.ru/церковь_трафика/церковь_трафика/свечку_за_баден_баден

Во-первых, узнаём причину возникновения некорректных адресов. Во-вторых, настраиваем HTTP 404 код ответа.

Похожие товары. Затрудняют работу робота, поскольку мало не отличаются. Нужно установить селектор, чтобы можно было на одной странице выбрать все нужные параметры. Или разбавьте контент уточнениями, добавьте отзывы. Уточнение: если товары одной линейки имеют серьёзные отличия (тех.характеристики, цена и т.д.), лучше продвигать их на разных страницах, раскачивая их полезным контентом, отзывами, информацией о товаре.
Фотографии без описания. Добавляем описания, теги, отзывы.
Пагинация.

— Google советует прописывать атрибуты rel=prev / rel=next.

— Yandex же предлагает указывать rel=canonical на первую страницу.

Делаем выводы

Каждый сайт подвержен возникновению дублей, которые провоцируют плохую индексацию сайта, утрату трафика и естественных ссылок. Поэтому пускай 301 редирект, rel=canonical и rel=prev / rel=next станут вашими лучшими друзьями — без них не обойтись. Что именно прописывать — редирект или canonical — решать вам, поскольку ситуации бывают разными, а мы знаем, что даже самое незначительное изменение способно повлиять на место в поисковой выдаче.

А какие, по-вашему, варианты дублей бывают ещё? Как справляетесь с ними?