понедельник, 8 декабря 2008 г.

Как избежать дублирования контента на Blogger?

Пост, который я обещал, и считаю с ним обязательно нужно ознакомиться всем пользователям Blogger!

Постоянные читатели, наверное, помнят, что одно время у меня начались проблемы с Google. До этого происшествия, все шло хорошо – Гугл любил меня, за это я любил Гугл, и до судного дня давал мне трафика в 4 раза больше чем Яндекс (это не связано с тем, что Гугл популярнее, просто Яндекс очень настороженно относится к blogspot, поэтому медленно запрягает, но зато потом нормально едет -). И тут в один день все закончилось. Google не выкинул меня из индекса, но, по всем запросам я мгновенно опустился так низко, что можно полдня капать, прежде чем докопаться до моего с треском изгнанного из серпа блога.

Конечно, версий было много – в принципе можно взять пост «9 факторов наиболее негативно влияющих на ранжирование в Google» и добавить еще столько же. Теоретически в любом из грехов при желании можно обвинить абсолютно любого, даже девственно чистого блоггера. Но почему же я решил, что моя проблема в дублированном контенте?

Во-первых, в первый же день я устранил 99% теоретически возможный внутренних причин, но спустя 1,5 месяца результата не было. До пессимизации я получал с Google 30-60 переходов в сутки, за полтора месяца в течение которых блог находился под фильтром – 10-15 за весь период! После того как я решил проблему с дублированием, уже на следующий день позиции начали восстанавливаться.

Почему спросите вы я сразу не начал решать проблему с дублированным контентом? Во-первых, я не думал, что ребята из команды Blogger на столько глупы, чтобы создавать сервис, который может нелепо попасть под нож своей же поисковой системы. Во-вторых, я уже давно привык, что новые посты индексируются в миг, и очень давно не заглядывал, в то, что индексирует Google. А когда заглянул - офигел. Офигел сразу после того как увидел количество страниц в индексе – их было раза в 3 больше чем должно было быть. Стал смотреть и обнаружил, что помимо собственно постов, проиндексирован «архив» и «рубрики».

Мне не понятно, что мешало разработчикам blogspot закрыть их от индексации, но если вы ставите эти виджеты себе на главную, рано или поздно ждите сюрприза, и чем больше накапливается контента, тем больше страниц в supplemental индексе и тем большим хламом считает ваш блог Google. Если у тебя перед глазами список проиндексированных страниц, и ты видишь задницу, сложно отрицать что это проблема, причем для Google это чуть ли не самое страшное прегрешение, а на расправу он быстр – проверено на себе!

Поэтому вопрос нужно было решать. В обычных случаях проблема решается достаточно просто – нужные страницы или разделы запрещаются в robot.txt, но, у пользователей Blogspot такой возможности нет. Несмотря на то, что файл robot.txt существует для каждого блога, и его даже можно посмотреть, ничего кроме это с ним не сделаешь…

Можно просто убрать архив и рубрики, но это не выход, потому, что я считаю их весьма полезными и нужными для читателя, поэтому для меня это не вариант.

Нужен был другой и их нашлось даже несколько, в итоге я остановился на предлагаемом здесь.

Сделать это можно с помощью очень простого мета-тэга. Наша задача запретить индексацию «архива», при этом главное не напортачить и не запретить индексацию главной и каждой страницы в отдельности.

1) Как обычно заходим «Макет – Изменить HTML», создаем buckup.
2) Находим наверху тэг <Head> и вставляем после него следующий код:
<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>
3) Сохраняем шаблон.

Как проверить что все сделано верно и операция прошла успешно? Щелкайте на любой месяц архива, после того как страница загрузится, нажмите CTRL-U чтобы посмотреть код, вверху страницы должен присутствовать следующий код:

<meta content='noindex,follow' name='robots'/>

Посмотрите таким же образом главную страницу, и страницу какого-нибудь поста. Этого кода ТАМ БЫТЬ НЕ ДОЛЖНО! Только на страницах архива и рубрик!

Несколько слов о рубриках – это еще одна причина почему я сразу не обратил внимание на дублирование контента. Дело в том, что они по умолчанию не индексируется, по крайней мере, я знаю точно что на прежних шаблонах индексация у меня была запрещена. Поэтому, каждому сообщению можно присваивать несколько ярлыков, потому что страницы разделов получаются динамические, а не статические. Такой порядок вещей – норма для любого «не кретинского шаблона». Но, как это бывает – «не все йогурты одинаково полезны», и при смене шаблона такие проблемы возможны. Если такая штука произошла у меня, то она возможна и у кого-то еще. К счастью, применение выше указанного рецепта, вылечило и это, несмотря на то, что явным образом рубрики в коде не фигурируют.

Итогом манипуляций было следующее – через день несколько запросов появились на привычных местах в выдаче, через 2 дня вернулись почти все. С ними само собой вернулся и трафик. Кроме того из индекса выпали все страницы архива и рубрик, а supplemental индекс, стал стремительно приближаться от показателей сайтов изгоев к трасту. Скажите совпадение и дело совсем не в дублированном контенте? Очень вряд-ли -).

Подписаться на RSS.

Еще читать:
Азбука терминов и жаргонизмов для SEO новичка
Зарабатываем с J2J. Инструкция для новичков.
Как вы планируете бюджет на раскрутку блога? Подведение итогов голосования.


Читайте по теме



64 комментария:

  1. Эммм, нифига себе, какой контент на картинке... %)

    ОтветитьУдалить
  2. Спасибо за совет! Хоть контента еще мало, но на будущее подстраховаться не помешает.

    ОтветитьУдалить
  3. Спасибо,Дима))) манипуляции провёл,буду смотреть на результат) Спасибо,дружище!

    ОтветитьУдалить
  4. Сейчас проверю, рекомендации, а то Google что-то не очень мой блог уважает.

    P.S. Картинка пугающая

    ОтветитьУдалить
  5. Для блогов на этой платформе очень полезный мануал. У нас-то есть доступ к роботсу, а вам приходится кустарными методами защищатся от недоработок разработчиков сервиса.

    ОтветитьУдалить
  6. Спасибо за совет, друже)

    ОтветитьУдалить
  7. Спасибо за предупреждение! А то я смотрю: чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов:) Предупреждён - значит вооружён!

    ОтветитьУдалить
  8. Вот так живешь и не знаешь, с какой стороны засада. По-моему, очень дельный совет. Спасибо!

    ОтветитьУдалить
  9. Спасибо. Сделал, посмотрим на результат

    ОтветитьУдалить
  10. Спасибо. Воспользовалась после того, как заметила, что site-auditor начал показывать плохие цифры относительно гугла. Хоть на поисковый рейтинг это пока не повлияло, но я решила не откладывать.

    ОтветитьУдалить
  11. Я вот тоже дождался, потом разгребал, сейчас полный порядок. Так что правильно сделали что воспользовались рецептом, главное проверить все ли сделано верно, а то можно по ошибке на запрещать что не нужно (как проверить, есть в посте).

    ОтветитьУдалить
  12. >> чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов <<

    А как можно посмотреть, сколько чего проиндексировано? Ваще в этом не разбираюсь... :(

    ОтветитьУдалить
  13. Я пользуюсь утилитой Site-auditor, о ней написано вот здесь http://maxibiz.blogspot.com/2008/08/blog-post_30.html
    или плагином для firefox SeoQuake, еще есть куча онлайн сервисов, например - http://maxibiz.blogspot.com/2008/09/seo_30.html

    ОтветитьУдалить
  14. А если без всяких инструментов, это можно сделать в поиске соответствующей поисковой системы.

    ОтветитьУдалить
  15. Проделала. Появился код вверху страницы архива.
    Если смотреть главную, то эта строчка находится в длинном ряду массовых сведений ВНИЗУ страницы - в разделе SCRIPT TYPE="text/javascript", который выглядит примерно так (вообще там куча подобного текста):
    data:page.isPrivate\47\76\n\74meta content\75\47NOINDEX,NOFOLLOW\47 name\75\47robots\47/\76\n\74/b:if\076'}});_WidgetManager._RegisterWidget('_LinkListView'

    Точно такая же фигня и на странице исходного кода в отдельном сообщени.
    Это что-то значит? Или всё нормуль, так и должно быть?

    ОтветитьУдалить
  16. >> например - http://maxibiz.blogspot.com/2008/09/seo_30.html <<

    От здорово! Спасибо огромное. :)

    А нет ли у тебя почитать про ключевые слова (нет, я понимаю кагбе их важность) - как и куда их добавлять в блог? Просто насовывать в новости?
    Слуш... я тебя достала уже, кажется... прости...

    ОтветитьУдалить
  17. То Allpa: Что-то не так, пока не понял. Такого быть не должно, да и на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет. Лучше внимательно все повторить, заново. Про ключевые слова у меня что-то было, смотрите раздел "Продвижение в сети" и "Новичку". На счет "достали" не беда, единственное не всегда могу отвечать оперативно и полно.

    ОтветитьУдалить
  18. >> на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет <<

    Как же нет, когда есть! Посмотри, плз, на скрин → http://img.skitch.com/20090113-fm7c12exfj2y8dbc5r7y2asjkd.jpg

    Красным я обвела строчку, указывающую, что мы сейчас смотрим код именно январского архива (другого-то у меня и нет пока), а зелёным - тот код, о котором ты говорил в посте:

    < meta content='noindex,follow' name='robots'/>

    Разве нет?

    ОтветитьУдалить
  19. И разве мы не договорились на "ты"?.. Или я опять всё перепутала...

    ОтветитьУдалить
  20. Да все правильно теперь все нормально, на главной и страницах постов запрещающего тега нет, значит все правильно. На счет "ты", договаривались, но я имел в виду что меня стоит на "ты", потому что я по сути 27-и летний мальчишка -). Ну, на ты так на ты -).

    ОтветитьУдалить
  21. Здесь видел еще один вариант:
    homelessinbelarus.com/2008/01/serpa.html(но код почему-то в комменты "не может быть принят")
    Интересно, какой вариант лучше?
    И еще раз (для тех, кто в танке): Отдельно взятую страницу на Блогспоте можно закрыть от индексации? Если да, то как?

    ОтветитьУдалить
  22. Код без модернизации в комменты и не добавить. Вариант посмотрел, на первый взгляд там запрещается только архив, чего в принципе и достаточно, потому что рубрики (ярлыки) по умолчанию и так должны быть запрещены. Поэтому принципиальных отличий быть не должно.

    Как запретить от индексации отдельную страницу, я честно говоря не задумывался, потому что не хочется мудрить и если у меня есть необходимость, я просто в теле поста, ставлю noindex/nofollow. Так можно запретить хоть весь текст определенной публикации. Вообще, в который раз жаль что нет доступа к robot.txt -).

    ОтветитьУдалить
  23. Спасибо Максим действительно помогло

    ОтветитьУдалить
  24. То dmx: Пожалуйста. Я Дмитрий -).

    ОтветитьУдалить
  25. Разобрался, изменил шаблон. Давно обратил внимание что гугл индексирует один и тот же материал много раз, но под разными адресами - это не есть хорошо. В общем спасибо! Думаю хуже никто себе не сделает, воспользовавшись этим советом.

    ОтветитьУдалить
  26. Привет. Дима, если всё это проделать, то внешние ссылки на рубрики потеряют смысл?
    То есть, допустим у тебя есть рубрика блоговодство и на неё куплено\поставлено от души:) 40-50 внешних ссылок, но так как она закрыта от индексации, то pr и тиц страницам находящимся в ней передаваться с неё не будет? Никак этот момент понять не могу.

    ОтветитьУдалить
  27. То holodoff: Проверено на себе уже 3-ий месяц все отлично!

    То Анонимный: Да, с этим проблема. Ссылки ставятся для того чтобы поднять страницу в выдаче, а если ее запретить в серпе ее не будет потому что не будет в индексе. Но, бывают ситуации, как была у меня когда деваться некуда. Да, и обычные старницы продвигать легче, там хоть текст статичный, в отличии от рубрик, где страница меняется с каждым добавление нового поста, и почти нет контроля над оптимизацией текста. Кстати, если шаблон один из стандартных, то там рубрики в любом случае не индексируются.

    ОтветитьУдалить
  28. То есть, если у меня стоит обычный minima, то мне нужно закрыть от индексации только архив?
    И вот я еще где-то читал, что все эти операции можно сделать из гугл вебмастер - панели, только вот непонятно, там надо (если архив обновляется ежемесячно) каждый месяц добавлять урл на закрытие от индексации? И каждый раз когда меняется (динамический, как ты говоришь) урл у рубрики - тоже?
    Епт, трудно сформулировать.
    Да, Дима спасибо кстати за оперативный ответ, думал один не сплю ночью, а жизнь-то кипит :)

    ОтветитьУдалить
  29. То Анонимный: В принципе этот фрагмент кода закрывает сразу все что не нужно, поэтому в нем нет необходимости что-то менять, но по сути да, только архив. На счет вебмастер, не знаю, я даже не пробовал идти этим путем, потому что есть же еще и другие поисковые системы.

    ОтветитьУдалить
  30. Спасибо, все получилось с первого раза.

    ОтветитьУдалить
  31. Гугль просканировал мой блог, и сообщил, что имеются УРЛы, запрещенные файлом robots.txt, а именно:

    http://allpa-allpa.blogspot.com/search/label/
    и
    http://allpa-allpa.blogspot.com/feedReaderJson

    Про ярлыки я уже поняла, что так и должно быть. А вот что это за "feedReaderJson"? Это как-то связано с моими попытками исключить из индексации Архив блога?

    ОтветитьУдалить
  32. По-прежнему не могу подписать на тебя по "мылу"... :(

    ОтветитьУдалить
  33. То Allpa: все как и должно быть - закрытие feedReaderJson, предотвращает дублирование контента за счет того что не индексируется фид. Так по умолчанию абсолютно на все blogspot блогах. Первое это ярлыки, они так же по умолчанию запрещены на всех стандартных шаблонах. Так что полных порядок. А вот про архив разработчики почему-то забыли, этот пост в первую очередь и решает данную проблему.

    P.S. За "мыло" извиняюсь, сам не пойму в чем дело, может быть из-за переезда с feedburner, но пока у меня почему-то не получается починить, хотя дело плевое, до этого все работало, в аккаунте даже показаны активные подписчики...

    ОтветитьУдалить
  34. Дмитрий, спасибо за совет. Кстати, вроде бы не встречала у тебя - сайт, где можно проверить, насколько тебя любит Гугл, то есть отношение количества страниц в основном индексе к дополнительному индексу http://supplemental.name/. Так вот, мой блог с неиндексированным архивом -57%, а с индексированным -8%. Чего уж нагляднее...

    ОтветитьУдалить
  35. То Lunatik2811: В принципе по этому я про http://supplemental.name/ и упомянул. У меня была такая же картина. Здесь все логично, а самое главное, это наглядно показывает что способ работает.

    ОтветитьУдалить
  36. Дмитрий, сделал все по инструкции еще в декабре, в коде страницы нужная строчка
    присутствует. Плюс шаблон из стандартного набора Блоггера. А ярлыки один черт индексирует!=( И месяцы архива, хотя я его с главной страницы убрал... Подскажите, где может быть причина, пожалуйста!

    ОтветитьУдалить
  37. То Larri: Скорее всего это нормальных процесс, у меня тоже полность все не нужные страницы из индекса исчезали в течение месяца - двух. Наверное, нужно обращать внимание на динамику. Если как Вы говорите строка кода присутствует на нужных страницах, значит все должно быть нормально. Проследите динамику увеличения или наоборот уменьшения страниц в индексе Google, если положительных изменений не будет, пришлите мне адрес блог, будем разбираться.

    ОтветитьУдалить
  38. Ясно. Наверное, правда поторопился.;) Спасибо за ответ!

    ОтветитьУдалить
  39. То Larri: Думаю, все будет в порядке, но если что обращайтесь.

    ОтветитьУдалить
  40. То Melnar Tilromen: на Anti-SEO тоже много интересного -)

    ОтветитьУдалить
  41. У меня после добавления кода все вроде бы было нормально, но теперь если на странице есть комменты, то Google дублирует эту страницу, почему так?

    ОтветитьУдалить
  42. То OdinWall: Наблюдал подобное на одном блоге, на этом блоге у меня тоже первое время по непонятным причинам Гугл индексировал комменты, а скорее всего они были изначально, я просто не обращал внимания. Потом он все это хозяйство повыкидывал из индекса, правда до сих пор осталось несколько недобитых страниц. Думаю, это связано с тем что на некоторых шаблонах комментарии не закрыты. В этом конечно нет ничего смертельного, но и особой пользы тоже, потому что это по сути дубли. Сейчас, к сожалению не могу дать рекомендации, потому что способов которые я проверял пока нет, а проверка требует времени -). Как только у меня будут собственноручно проверенные результаты решения этой проблемы, обязательно опубликую.

    ОтветитьУдалить
  43. Сделал, как ты описал. Заметил такую вещь - у меня стали выпадать страницы из основного индекса. Хотя проверял все - теги в исходном коде появляются только на страницах архива. Может подскажешь, в чем дело?

    ОтветитьУдалить
  44. Бродячий Проповедник: так понимаю, проблемы с veschatel.blogspot? Посмотрел вроде все нормально, запрещающие теги только на архиве, на главной и каждая страница в отдельности - порядок. Из основного индекса и должны выпадать страницы, потому что дубли были проиндексированы, сейчас, после того как они были запрещены к индексации, при новых заходах пауков, запрещенные страницы будут вываливаться. В этом и смысл. Или проблема с тем что выпадают из индекса страницы постов которые не должны выпадать?

    ОтветитьУдалить
  45. Дмитрий а как с ярлыками? у меня ярлыки засчитаны как повтор мета описания...архив я вообще удалил, уф всё кровь выпили... может посоветуете что можно сделать?

    ОтветитьУдалить
  46. Попробовал.Но кажется не получилось или что-то недопонял.Что при моём уровне знаний по этой тематики не удивительно.Но спасибо за информацию.

    ОтветитьУдалить
  47. То Qoshni: Проверить довольно легко, как это сделать написано в посте. Потом, ситуацию можно контролировать, например, с помощью утилиты Site-auditor, которая показывает количество проиндексированных страниц.

    ОтветитьУдалить
  48. Что-то все-равно сложно... нельзя ли просто теги "noindex" и "nofollow", чтобы робот в архив не переходил - а следовательно - не будет индексировать

    ОтветитьУдалить
  49. Последний раз писали давно, но всё же..
    Разместил указанный код у себя в блоге ( o-vybore.blogspot.com ). Всё с кодом как нужно, только Гугл всё равно проиндексировал метки/теги и уже месяц не желает удалять из индекса эти страницы. В чём может быть причина?

    ОтветитьУдалить
  50. Искал и нашел.Спасибо за код нужный,а то гугл стал ругаться

    ОтветитьУдалить
  51. Дима, скажи, пожалуйста, этот код работает в классическом шаблоне? если нет, то есть ли какие-то альтернативы?

    ОтветитьУдалить
  52. То Anna: На счет классического не знаю, уже несколько лет как классическим шаблоном не интересуюсь, но, думаю, должен работать.

    ОтветитьУдалить
  53. спасибо, и за оперативность тоже )))

    ОтветитьУдалить
  54. Не могу поныть у меня вобще нет noindtcs индекс что на главной что в архиве что может быть не правильно шаблон родной изменений не было

    ОтветитьУдалить
  55. Ой спасибо за инфу.пошла у себя копаться,а то у меня все посты заблокированы копец какой-то.блог молодой,так гуглик его вообще игнорирует.

    ОтветитьУдалить
  56. Оу много подобных постов. Но твой лучший респект =)

    ОтветитьУдалить
  57. Я ничего не пойму. Сделал все по инструкции. В гугл веюмастер тулз показывает, что ярлыки закрыты от индексации, но все страницы из раздела лейблз - в индексе. То есть гуглу все нофоллов и ноиндекс уже пофиг? Что делать? Страниц в индексе в 2 раза больше, чем постов в блоге.

    ОтветитьУдалить
  58. То Oleg: Скорее всего дело в инерции, у меня тоже Google очень долго выкидывал из индекса дубли, поэтому нужно просто подождать, все должно быть нормально.

    ОтветитьУдалить
  59. Как вы боретесь со страницами, типа http://maxibiz.blogspot.com/2008/12/blogger.html?showComment=... Интересует Яндекс. У меня висит подобная страница, не могу удалить.

    ОтветитьУдалить
  60. To NMitra: С такими страницами есть проблемы, но я с ними не борюсь рано или поздно они обязательно выпадают из индекса.

    ОтветитьУдалить
  61. А всё таки? Вопрос интересный. Точно выпадают из индекса Яндекса? Через какое время? Есть предположение, что у меня из-за комментариев позиции в выдаче падают :(

    Рустем

    ОтветитьУдалить