понедельник, 8 декабря 2008 г.

Как избежать дублирования контента на Blogger?

Пост, который я обещал, и считаю с ним обязательно нужно ознакомиться всем пользователям Blogger!

Постоянные читатели, наверное, помнят, что одно время у меня начались проблемы с Google. До этого происшествия, все шло хорошо – Гугл любил меня, за это я любил Гугл, и до судного дня давал мне трафика в 4 раза больше чем Яндекс (это не связано с тем, что Гугл популярнее, просто Яндекс очень настороженно относится к blogspot, поэтому медленно запрягает, но зато потом нормально едет -). И тут в один день все закончилось. Google не выкинул меня из индекса, но, по всем запросам я мгновенно опустился так низко, что можно полдня капать, прежде чем докопаться до моего с треском изгнанного из серпа блога.

Конечно, версий было много – в принципе можно взять пост «9 факторов наиболее негативно влияющих на ранжирование в Google» и добавить еще столько же. Теоретически в любом из грехов при желании можно обвинить абсолютно любого, даже девственно чистого блоггера. Но почему же я решил, что моя проблема в дублированном контенте?

Во-первых, в первый же день я устранил 99% теоретически возможный внутренних причин, но спустя 1,5 месяца результата не было. До пессимизации я получал с Google 30-60 переходов в сутки, за полтора месяца в течение которых блог находился под фильтром – 10-15 за весь период! После того как я решил проблему с дублированием, уже на следующий день позиции начали восстанавливаться.

Почему спросите вы я сразу не начал решать проблему с дублированным контентом? Во-первых, я не думал, что ребята из команды Blogger на столько глупы, чтобы создавать сервис, который может нелепо попасть под нож своей же поисковой системы. Во-вторых, я уже давно привык, что новые посты индексируются в миг, и очень давно не заглядывал, в то, что индексирует Google. А когда заглянул - офигел. Офигел сразу после того как увидел количество страниц в индексе – их было раза в 3 больше чем должно было быть. Стал смотреть и обнаружил, что помимо собственно постов, проиндексирован «архив» и «рубрики».

Мне не понятно, что мешало разработчикам blogspot закрыть их от индексации, но если вы ставите эти виджеты себе на главную, рано или поздно ждите сюрприза, и чем больше накапливается контента, тем больше страниц в supplemental индексе и тем большим хламом считает ваш блог Google. Если у тебя перед глазами список проиндексированных страниц, и ты видишь задницу, сложно отрицать что это проблема, причем для Google это чуть ли не самое страшное прегрешение, а на расправу он быстр – проверено на себе!

Поэтому вопрос нужно было решать. В обычных случаях проблема решается достаточно просто – нужные страницы или разделы запрещаются в robot.txt, но, у пользователей Blogspot такой возможности нет. Несмотря на то, что файл robot.txt существует для каждого блога, и его даже можно посмотреть, ничего кроме это с ним не сделаешь…

Можно просто убрать архив и рубрики, но это не выход, потому, что я считаю их весьма полезными и нужными для читателя, поэтому для меня это не вариант.

Нужен был другой и их нашлось даже несколько, в итоге я остановился на предлагаемом здесь.

Сделать это можно с помощью очень простого мета-тэга. Наша задача запретить индексацию «архива», при этом главное не напортачить и не запретить индексацию главной и каждой страницы в отдельности.

1) Как обычно заходим «Макет – Изменить HTML», создаем buckup.
2) Находим наверху тэг <Head> и вставляем после него следующий код:
<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>
3) Сохраняем шаблон.

Как проверить что все сделано верно и операция прошла успешно? Щелкайте на любой месяц архива, после того как страница загрузится, нажмите CTRL-U чтобы посмотреть код, вверху страницы должен присутствовать следующий код:

<meta content='noindex,follow' name='robots'/>

Посмотрите таким же образом главную страницу, и страницу какого-нибудь поста. Этого кода ТАМ БЫТЬ НЕ ДОЛЖНО! Только на страницах архива и рубрик!

Несколько слов о рубриках – это еще одна причина почему я сразу не обратил внимание на дублирование контента. Дело в том, что они по умолчанию не индексируется, по крайней мере, я знаю точно что на прежних шаблонах индексация у меня была запрещена. Поэтому, каждому сообщению можно присваивать несколько ярлыков, потому что страницы разделов получаются динамические, а не статические. Такой порядок вещей – норма для любого «не кретинского шаблона». Но, как это бывает – «не все йогурты одинаково полезны», и при смене шаблона такие проблемы возможны. Если такая штука произошла у меня, то она возможна и у кого-то еще. К счастью, применение выше указанного рецепта, вылечило и это, несмотря на то, что явным образом рубрики в коде не фигурируют.

Итогом манипуляций было следующее – через день несколько запросов появились на привычных местах в выдаче, через 2 дня вернулись почти все. С ними само собой вернулся и трафик. Кроме того из индекса выпали все страницы архива и рубрик, а supplemental индекс, стал стремительно приближаться от показателей сайтов изгоев к трасту. Скажите совпадение и дело совсем не в дублированном контенте? Очень вряд-ли -).

Подписаться на RSS.

Еще читать:
Азбука терминов и жаргонизмов для SEO новичка
Зарабатываем с J2J. Инструкция для новичков.
Как вы планируете бюджет на раскрутку блога? Подведение итогов голосования.


Читайте по теме