Большая рыба от Promodo. Дублируемый контент – как вовремя найти и обезвредить дубли
«Большая рыба от Promodo» – это только рабочие, проверенные кейсы от специалистов компании. Читайте каждый вторник в блоге Promodo и на страницах компании в социальных сетях. Напомним, что на прошлой неделе мы рассказывали об ошибке 404 – что и как с ней делать. Сегодня в рамках проекта «Большая рыба от Promodo» вы узнаете о том, что такое дубли и дублированный контент и как от него правильно «избавляться».
Определение
Дублированный контент – это две и более страницы сайта, содержащие одинаковый контент (наиболее распространенный элемент контента – это текст). При этом порядок текста может быть разным: то есть даже если на странице выполнена сортировка блоков и абзацев, все равно контент этой страницы – дублированный.
Негативное влияние
Большое количество дублированных страниц в индексе поисковых систем может быть причиной исключения сайта из поисковых систем или понижения качества дублированных страниц, что повлечет за собой ухудшение их ранжирования в поисковых системах.
Причины возникновения
Есть несколько разновидностей страниц с дублированным контентом.
Первый – это второстепенные дублированные страницы (если речь идёт об интернет-магазинах) – это обычно страницы сортировки товаров.
Рассмотрим пример сайта «5ok.com.ua». Страница: http://www.5ok.com.ua/Products_143_977_0_0_2_0_0_1.html содержит блок сортировки товаров:
В результате все страницы сортировки попали в индекс поисковых систем:
Если речь идёт о контентных сайтах (новостные порталы), то страницы печати на таком сайте также могут быть дублированными.
Этот новостной сайт содержит 61 800 дублированных страниц, что негативно отражается на общем качестве сайта с точки зрения поисковых систем.
Еще одна разновидность страниц с дублированным контентом – технические дублированные страницы. Данный тип страниц возникает при неправильной разработке (или настройке) CMS для сайта. Зачастую такие ошибки допускаются на этапе создания сайта.
Этот тип дублированных страниц может попасть в поисковую систему, если на такую страницу есть ссылка на сайте (например, если ваша карта сайта генерируется автоматически, и в нее включаются абсолютно все страницы).
Примеры дублей
Пример №1 (дублирование индексных файлов)
Основная страница:
Страницы дубль:
Пример №2 (дублирование при помощи «/» (слеша))
Основная страница:
http://www.limenet.kiev.ua/page3/
Страница дубль:
http://www.limenet.kiev.ua/page3
Пример №3 (дублирование разделов)
Основная страница:
Страница дубль:
http://for-ua.com/world/world/
Пример №4 (дублирование доменов)
Основная страница:
Страница дубль:
Пример №5 (дубли поиска товаров)
В некоторых интернет-магазинах существуют примеры популярных товаров в строке поиска:
Необходимо помнить, что в данном случае «Например» – это ссылка, по которой пройдёт поисковый робот, и он с большой вероятностью включит страницу в индекс поисковой системы. Как мы видим, дублированных страниц в индексе поисковой системы 9 410:
Необходимо помнить, что поиск внутри сайта следует закрывать от поисковых систем с помощью robots.txt. Читайте более подробно о том, что такое robots.txt.
Решение проблемы
Необходимо провести небольшой комплекс работ с дублированными страницами.
В первую очередь все дублированные страницы необходимо закрыть в robots.txt при помощи директивы:
Disallow: *print
Disallow: *sort
Если карты сайтов «XML» и «HTML» формата генерируются автоматически, необходимо проследить, чтобы карты не содержали дублированных страниц.
Важно: необходимо делать 301 редирект с дублированных страниц на основные страницы.
Следующим шагом необходимо добавить тег «Canonical» на дублированные страницы:
<link rel=’canonical’ href=’http://site.ru/page3/’/>
В теге «Canonical» ссылка должна быть на оригинальную (не дублированную) страницу.




