Як знайти дублі на сайті і позбутися від них

Ви можете про це не знати, але на вашому сайті напевно є дублі. Що це таке? Дублі - це однакові або майже однакові сторінки з різними URL-адресами. Якби не пошукові роботи і вся ця суєта з SEO і просуванням сайту в ТОП-10, то можна було б і не турбуватися. Відвідувачі бачать сторіночки, все добре. Але, на жаль, ми живемо не в такому розслабленому й спокійному світі. У реальності пошуковики висувають свої вимоги, а власникам сайтів залишається тільки погоджуватися з ними.

Отже, чим же дублі можуть нашкодити?

По-перше, пошукові системи починають вважати контент цих сторінок неунікальним (це не така неунікальність, як при наявності копій на інших сайтах, але, тим не менше, цього варто уникати).

По-друге, пошуковикам стає важче вибрати саму релевантну конкретному запиту сторінку. Є ймовірність, що в індекс потрапить не потрібна сторінка, а її версія для друку або результат внутрішнього пошуку.

По-третє, пошуковики негативно ставляться до сайтів з великою кількістю дублів. Справа в тому, що багато дублів буває або на неякісних ресурсах, про які ніхто не піклується, або на сайтах, які спеціально роздувають кількість сторінок, у тому числі і шляхом дублювання контенту. А це дуже працюється Google, та й Яндекс не буде радий.

Дублі бувають чіткими і нечіткими (тобто повними або частковими). Повні дублі - це практично на 100% ідентичні сторінки, що відкриваються за кількома адресами. Нечіткі дублі - це сторінки з частково дублює контентом (наприклад, картки схожих товарів, які можуть відрізнятися тільки 1-2 словами).

Навіть нечітких дублів потрібно уникати, але з цим потрібно розбиратися по можливості, яка не завжди є. А ось чіткі дублі треба знаходити, знищувати і запобігати їх появі.

Потрібно розуміти, що дублі можуть з'явитися на сайті навіть в тому випадку, якщо ви їх не плодите спеціально. На те є дві основні причини: неправильно налаштовані редіректи (перенаправлення з одного URL на інший) і неправильно налаштована CMS (система управління контентом).

Основні типи дублів сторінки N:

    версія сторінки N для друку
    відсутні редіректи (наприклад, site.ru/ і site.ru/index.html можуть бути окремими однаковими сторінками, хоча з site.ru/index.html повинен стояти постійний редирект на site.ru/)
    частину сторінки N на сторінці пагінацію
    частину сторінки N на сторінці міток (тегів)
    сторінка N в архіві (архіві статей)

Як знайти дублі?

Є досить багато способів, але ми покажемо найнадійніший. Він зводиться до того, щоб за допомогою розширеного пошуку Яндекса і Google перевірити цитати з текстів основних типів сторінок вашого сайту: головною, сторінки категорії товару, картки товару, сторінки контактної інформації тощо Не потрібно перевіряти всі сторінки сайту - досить перевірити основні типи. Якщо пошуковики показують, що текст знайдений не на одній сторінці, а він повинен бути присутнім тільки на одній, то ви зловили шукані дублі. Тепер вам потрібно всього лише подивитися, що це за сторінки - і з'ясувати, звідки вони взялися.

Знайти дублі на сайті з точки зору Яндекса


 
Шукаємо входження цитати в межах вашого сайту (замініть yoursite.ru на ваш URL).

Знайти дублі на сайті з точки зору Google



Ту ж саму процедуру варто виконати і з Google. Швидше за все що результати будуть такими ж, але відсутність проблем з одним пошукачем не гарантує, що інший бачить ваш сайт білим і пухнастим.

Як усунути дублі?

Припустимо, що на попередньому етапі знайшлися сторінки, яким не місце в індексі. Що робити?

    Копії, які створені вручну, а не автоматично, необхідно видалити з сайту.
    Якщо в індексі присутні сторінки з www і без www, то потрібно зробити з одних на інші редирект з кодом 301 (постійне перенаправлення). Тут потрібно знати про поняття головного дзеркала (дуже хороша стаття про це є в хелпе Яндекс.Вебмайстер) і бути в курсі, які саме посилання проставлені на сайт - з www або без. Редирект настроюється або в CMS, або в конфігураційному файлі веб-сервера.
    Нечіткі дублі і сторінки-копії, які не видаляються, а закриваються від індексації (наприклад, версії для друку) можна «знешкодити» за допомогою тега тега canonical. Додайте в рамках тегу head тег <link rel = "canonical" href = "http://yoursite.ru/articles/evil-duplicates" /> - і зробіть це на всіх сторінках-дублях, у тому числі і на головній, канонічної . В даному випадку це http://yoursite.ru/articles/evil-duplicates. Детальна інформація про канонічні URL є в навчальних матеріалах Google.
    Якщо дублі відповідають певній масці (тобто містять в URL однакову рядок - наприклад,? Version = print), то з ними можна справитися за допомогою файлу robots.txt, керуючого індексацією. Ми докладно розберемо роботу з ним в одному з наступних випусків нашої розсилки.

Висновок

Проблема усунення дублів рідко стосується власників сайтів, оскільки в більшості випадків вони займаються своїм бізнесом, а проблеми з індексацією і просуванням сайту перекладають на підрядників (і правильно роблять). Проте в кризу багато хто хоче самостійно просувати свої сайти. Ми не стверджуємо, що це неможливо. Але якщо ви уважно прочитали цю статтю, то напевно помітили, наскільки тісно вона пов'язана з практикою і умінням працювати з досить-таки складними інструментами. Якщо у вас є на це час і сили, то ця стаття стане непоганою відправною точкою для вивчення управління індексацією.

Ми ж, у свою чергу, завжди готові прийти на допомогу. Усунення дублів і настройка параметрів індексації входять до списку попередніх робіт по внутрішній оптимізації. Терміни і ціни ви знайдете тут.


Комментарии: