Существует общеизвестный факт того, что в большинстве случаев, дублирующийся контент на сайте весьма негативно влияет на ранжирование поисковыми системами. Поисковая система Google предложила отличный вариант устранения дубликатов страниц на сайте – настройка атрибута rel=”canonical” для дублирующихся страниц с указанием канонических (основных) страниц.
Хотя идея канонического URL достаточно проста, найти его на большом участке управляемых данных не всегда просто. Множество веб-мастеров до сих пор не могут разобраться — какие URL являются каноническими.
Эта статья поможет вам разобраться в общих случаях необходимости настройки атрибута Canonical, с которыми опытные seo-специалисты сталкиваются каждую неделю.
Разбираемся в понятии «страница»
Перед тем, как начать, давайте рассмотрим самое большое недопонимание людей о понятии «страница» на своих веб-сайтах. Когда мы думаем о странице, мы часто думаем о физическом файле, содержащим код (будь то статический HTML или скрипт).
Для робота поисковой системы, страница – это любой уникальный URL, который он находит в процессе индексации сайта. Один файл теоретически может генерировать тысячи уникальных URL-адресов, и каждый из них является именно «страницей» в глазах поисковой системы.
Давайте рассмотрим примеры различных типов страниц сайта и попробуем ответить на вопрос – как поисковая система видит данные страницы?
(A) Статические страницы сайта
- www.site.com/
- www.site.com/store
- www.site.com/about
- www.site.com/contact
(B) Страницы сайта на основе PHP
- www.site.com/index.php
- www.site.com/store.php
- www.site.com/about.php
- www.site.com/contact.php
(C) Страницы сайта с динамическими параметрами
- www.site.com/index.php?page=home
- www.site.com/index.php?page=store
- www.site.com/index.php?page=about
- www.site.com/index.php?page=contact
Например, 3 страницы контактов (A) 4, (B) 4 и (С) 4. Все эти 3 адреса теоретически имеют одинаковый контент. Для поисковой системы данный факт не имеет значения — есть три уникальных URL-адреса, и это означает, что на сайте есть три страницы:
- www.site.com/contact
- www.site.com/contact.php
- www.site.com/index.php?page=contact
Если поисковая система может просканировать их все, то все они будут проиндексированы (как правило). Следовательно, из трех данных проиндексированных адресов, содержащих одинаковый контент, два адреса будут восприняты поисковой системой как дубликаты (мусорные страницы).
Данный факт наличия дублирующегося контента на сайте может негативно отразиться на продвижении сайта в поисковых системах.
Давайте погрузимся в несколько примеров, чтобы помочь вам определить правильный канонический URL для каждой конкретной ситуации.
Случай 1: Отслеживание URL-адресов
Многие сайты до сих пор используют дополнительные параметры URL для отслеживания сеансов посетителей. Независимо от названия параметра, и с какой целью он используется, он создает дубликат страницы для каждого отдельного посетителя. Вот несколько примеров:
- www.site.com/store.php?session=1234
- www.site.com/store.php?affiliate=5678
- www.site.com/store.php?product=1234&affiliate=5678
В первых двух примерах параметры сеанса и идентификатора посетителя создают копию главной страницы магазина. В обоих этих случаях, необходимо настроить атрибут Canonical. Правильный канонический URL для первых двух страниц будет просто:
- www.site.com/store.php
Последний пример немного сложнее. Там также есть параметр «=product», который отвечает за отображение продукта. Этот параметр имеет важное значение — он определяет фактическое содержание страницы. Таким образом, только параметр «affiliate=» не является обходимым, и канонический URL будет такой:
- www.site.com/store.php?product=1234
Случай 2: Динамические URL-адреса
Динамические адреса, как правило, создаются посредством добавления переменных. Эти переменные могут выглядеть как обычные параметры URL или быть встроены в «/раздел».
Четыре примера URL динамического типа:
- www.site.com/blog/1234
- www.site.com/blog.php?id=1234
- www.site.com/blog.php?id=1234&comments=on
- www.site.com/blog/20120626
Опять же, это не имеет значения, содержат ли URLS не скрытые параметры, или эти параметры скрыты, как виртуальные папки. Все эти URL используют уникальное значение (либо ID или дата) для создания конкретного сообщения в блоге.
Так какой канонический URL в данном случае? Очевидно, что если все адреса канонизировать в «/blog», то вы уменьшите все свои статьи сайта до одной страницы. Это немного каверзный вопрос, потому что канонический URL действительно может быть что-то вроде этого:
- www.site.com/blog/this-is-a-blog-post
Вот почему выбор канонических URL-адресов не стоит делать, основываясь лишь на структуре URL. Вы должны понять всю архитектуру вашего сайта и пути обхода как пользователем, так и поисковым роботом. Рекомендуется произвести комплексный технический аудит сайта для четкого определения степени критичности проблемы и построения конкретного плана по канонизации страниц.
Случай 3: Главная страница
Проблема заключается в том, что домашняя страница сайта может иметь много вариаций:
- www.site.com
- www.site.com/
- www.site.com/default.html
- www.site.com/index.php
- www.site.com/index.php?page=about
В большинстве случаев, технически правильный канонический URL домашней страницы:
- http://www.site.com/
Случай 4: Страницы продукта
Во многих случаях мы можем наблюдать большое количество вариаций страниц продукта на сайте как по причинам, описанным выше в случаях 1 и 2, так и из-за организации электронной коммерции:
- www.site.com/store.php?id=1234
- www.site.com/store/1234
- www.site.com/store/this-is-a-product
- www.site.com/store.php?id=1234¤cy=us
- www.site.com/store/1234/red
- www.site.com/store/1234/large
Если у вас URL карточки товара выглядит, как №3, то этот адрес будет вашим каноническим URL для всех дубликатов страниц продукта (в большинстве случаев), особенно для №1 и №2.
С URL-адресами №4, №5 и №6 немного сложнее. Генерация адреса №4 (что-то вроде выбора валюты) может быть очень сложной и зависеть от того, каким образом выбор будет реализован (выбор пользователя по сравнению с IP на основе гео-местоположения, например).
Для поисковой системы приемлемо использовать доминирующую валюту для аудитории сайта и каноническое к основному URL продукта (№1 — №3, в зависимости от архитектуры сайта).
URL-адреса №5 и №6 указывают вариант продукта, скажем, футболку, которая поставляется в различных цветах и размерах. Такая ситуация во многом зависит от структуры и объема содержания сайта. Технически, ваша страница футболки красного цвета / размера large уникальна, но тем не менее, страница может выглядеть дубликатом в глазах поисковой системы. Если у вас есть 1-2 варианта для нескольких продуктов, это не является существенной проблемой. Но если у вас на сайте каждый продукт имеет 50 возможных комбинаций, то вам нужно серьезно рассмотреть вопрос о канонизации.
Случай 5: Поиск по сайту
Теперь, самый интересный случай из всех — внутренние страницы поиска по сайту. Это палка о двух концах, так как, например, Google не поклонник «поиска в поиске». Вот некоторые примеры страниц внутреннего поиска по сайту:
- www.site.com/search.php?topic=1234
- www.site.com/search/this-is-a-topic
- www.site.com/topic
- www.site.com/search.php?topic=1234&page=2
- www.site.com/search.php?topic=1234&page=2&sort=desc
- www.site.com/search.php?topic=1234&page=2&filter=price
Список таких мусорных страниц в индексе поисковой системы, к сожалению, может пойти дальше и дальше.
Понятно, что первая каноническая версия должна быть №1 — №3 (в зависимости от структуры URL, так же, как в Случае 4 «Страницы продукта»).
Проблема с нумерацией страниц (№4 — №6). Страница 2 (page=2) и страницы за ее пределами в вашей теме поиска могут быть дубликатами, но в некоторых случаях они возвращают уникальные результаты и не являются техническими дублями.
Рекомендации компании Google изменились с течением времени, в настоящее время Google рекомендует использование тегов rel=prev/next. Проще говоря, эти теги сообщают поисковой системе Google, о том, что эти страницы являются частью серии.
В таких случаях, как №5 и №6, Google рекомендует использовать теги rel=prev/next для пагинации, но потом — канонический тег для страниц типа «пагинация + сортировка и/или фильтр».
Реализация этого должным образом является очень сложным процессом и выходит далеко за рамки этой статьи, но главное заключается в том, что вы должны не канонизировать все ваши страницы результатов поиска на странице 1. В любом случае, перед канонизацией страниц результатов поиска по сайту, тщательно проанализируйте структуру вашего сайта, все основные и дублирующиеся адреса, прежде чем принять стратегическое решение.