Большая рыба от Promodo. Дублируемый контент – как вовремя найти и обезвредить дубли


24 Апр 2012, в рубрике Практикум

«Большая рыба от Promodo» – это только рабочие, проверенные кейсы от специалистов компании. Читайте каждый вторник в блоге Promodo и на страницах компании в социальных сетях. Напомним, что на прошлой неделе мы рассказывали об ошибке 404 – что и как с ней делать. Сегодня в рамках проекта «Большая рыба от Promodo» вы узнаете о том, что такое дубли и дублированный контент и как от него правильно «избавляться».

Определение

Дублированный контент – это две и более страницы сайта, содержащие одинаковый контент (наиболее распространенный элемент контента – это текст). При этом порядок текста может быть разным: то есть даже если на странице выполнена сортировка блоков и абзацев, все равно контент этой страницы  – дублированный.

Негативное влияние

Большое количество дублированных страниц в индексе поисковых систем может быть причиной исключения сайта из поисковых систем или понижения качества дублированных страниц, что повлечет за собой ухудшение их ранжирования в поисковых системах.

Причины возникновения

Есть несколько разновидностей страниц с дублированным контентом.

Первый – это второстепенные дублированные страницы (если речь идёт об интернет-магазинах) – это обычно страницы сортировки товаров.

Рассмотрим пример сайта «5ok.com.ua». Страница: http://www.5ok.com.ua/Products_143_977_0_0_2_0_0_1.html содержит блок сортировки товаров:

В результате все страницы сортировки попали в индекс поисковых систем:

Если речь идёт о контентных сайтах (новостные порталы), то страницы печати на таком сайте также могут быть дублированными.

Этот новостной сайт содержит 61 800 дублированных страниц, что негативно отражается на общем качестве сайта с точки зрения поисковых систем.

Еще одна разновидность страниц с дублированным контентом – технические дублированные страницы. Данный тип страниц возникает при неправильной разработке (или настройке) CMS для сайта. Зачастую такие ошибки допускаются  на этапе создания сайта.

Этот тип дублированных страниц может попасть в поисковую систему, если на такую страницу есть ссылка на сайте (например, если ваша карта сайта генерируется автоматически, и в нее включаются абсолютно все страницы).

Примеры дублей

Пример №1 (дублирование индексных файлов)

Основная страница:

http://intinity.org/

Страницы дубль:

http://intinity.org/index.php

Пример №2 (дублирование при помощи «/» (слеша))

Основная страница:

http://www.limenet.kiev.ua/page3/

Страница дубль:

http://www.limenet.kiev.ua/page3

Пример №3 (дублирование разделов)

Основная страница:

http://for-ua.com/world/

Страница дубль:

http://for-ua.com/world/world/

Пример №4 (дублирование доменов)

Основная страница:

http://whiteseo.com.ua/

Страница дубль:

http://www.whiteseo.com.ua/

Пример №5 (дубли поиска товаров)

В некоторых интернет-магазинах существуют примеры популярных товаров в строке поиска:

Необходимо помнить, что в данном случае «Например» – это ссылка, по которой пройдёт поисковый робот, и он с большой вероятностью включит страницу в индекс поисковой системы. Как мы видим, дублированных страниц в индексе поисковой системы 9 410:

Необходимо помнить, что поиск внутри сайта следует закрывать от поисковых систем с помощью robots.txt. Читайте более подробно о том, что такое robots.txt.

Решение проблемы

Необходимо провести небольшой комплекс работ с дублированными страницами.

В первую очередь все дублированные страницы необходимо закрыть в robots.txt при помощи директивы:

Disallow: *print

Disallow: *sort

Если карты сайтов «XML» и  «HTML» формата генерируются автоматически, необходимо проследить, чтобы карты не содержали дублированных страниц.

Важно: необходимо делать 301 редирект с дублированных страниц на основные страницы.

Следующим шагом необходимо добавить тег «Canonical» на дублированные страницы:

<link rel=’canonical’ href=’http://site.ru/page3/’/>

В теге «Canonical» ссылка должна быть на оригинальную (не дублированную) страницу.