8 января 2020
Что такое дубли контента и каково их происхождение?
Поисковая оптимизация – масштабный процесс, который включает в себя несколько мероприятий по устранению тех или иных неполадок на продвигаемом веб-ресурсе. Одной из наиболее распространенных проблем является появление повторяющегося контента (как показывает практика, не существует ни одного интернет-ресурса, на котором не было бы копий). Существует несколько причин этой проблемы, но для каждой из них предусмотрено оптимальное решение.
Казалось бы, при создании сайта каждый элемент размещается исключительно в единственном экземпляре, и копиям неоткуда взяться. Однако их возникновение не так очевидно: интернет-странице присваивается уникальный адрес, и это логично, ведь не может один ресурс размещаться по нескольким адресам одновременно. Но если это соблюдалось около 7-10 лет назад, то сегодня одна и та же страница может существовать по неограниченному количеству адресов.
Причина этому – массовое создание динамических сайтов и внедрение различных систем менеджмента контента. Таким образом, когда поисковая система обнаруживает несколько одинаковых страниц и несколько разных адресов, возникает дилемма: можно ли считать их страницы разными? И если нужно объединить страницы, какой адрес считать основным?
Наиболее распространенные ситуации, при которых появляется дублирующийся контент
- добавление одного и того же материала в несколько категорий;
- создание отдельной страницы для печати;
- наличие идентификаторов сеансов;
- использование URL с целью анализа параметров сортировки;
- применение пагинации для комментариев;
- использование домена с приставкой «www» и без нее;
- установленный произвольный порядок параметров.
Проверить сайт на дубликаты – достаточно просто. Следует воспользоваться специальным сервисом, разработанным для веб-мастеров Google. Предварительно необходимо создать учетную запись, а также подтвердить права на веб-ресурс, который собираетесь анализировать. Зайдите в раздел «Вид в поиске» и выберите «Оптимизация HTML». Здесь вы найдете перечень всех дубликатов, присутствующих на сайте.
Если же вы только работаете над разработкой и сайт недоступен для индексации – не обязательно использовать эту консоль. Довольно удобной, но платной программой является «Screaming Frog». Она пользуется большой популярностью среди SEO – специалистов, потому что:
- находит копии в мета-тегах и заголовках h1-h2;
- обладает функцией парсинга html-элементов.
Также вы можете воспользоваться опцией продвинутого поиска, встроенного в поисковую систему. Такой метод будет успешным только в том случае, если исследуемый ресурс ранее не добавлялся в консоль для веб-мастеров и подробная информация о нем недоступна. Шаблон поиска составляется следующим образом: site:домен intitle:«фраза для поиска». В выдаче окажутся все страницы с указанной фразой.
Как избежать появления дублей
В этой ситуации, как и в большинстве подобных, гораздо проще предотвратить причину, нежели бороться с последствиями. Во избежание появления копий контента достаточно следовать следующим рекомендациям:
- воздержитесь от использования идентификаторов сеансов URL;
- отдельную страницу для печати замените динамической таблицей стилей;
- корректно закрывайте пагинацию комментариев;
- используйте при работе с параметрами в URL тот скрипт, который выстраивает их в конкретном порядке;
- для контроля переходов вместо параметров в URL используйте хэш.
Как устранить дубликаты, которые уже появились
Так как причин этому явлению существует несколько, предусмотрено три метода борьбы с копиями контента, которые на протяжении нескольких лет демонстрируют свою эффективность: перенаправление, указание оригинальной страницы и запрет на индексацию.
- Перенаправление 301 – одно из наиболее простых и успешных решений устранения повторов. Оно подразумевает регулярную переадресацию для того, чтобы пользователи и поисковые системы могли найти страницу, которую нужно считать основной.
- Явное указание канонической (оригинальной) страницы (использование атрибута «canonical» с тэгом «link») укажет поисковой системе на то, какая страница является основной. Такой метод имеет много общего с перенаправлением, однако разница в том, что применение тега требует меньше усилий и времени. Несмотря на это, случаются такие ситуации, когда такой подход не может полностью решить проблему.
- Запрет на индексацию ссылок. Для успешной борьбы с копиями используется тег «robots» с атрибутом «content=noindex, follow». Такой вариант считается наиболее удобным для материала, распределенного на нескольких страницах.