Как избежать дублирования контента на Blogger? ~ naumov

понедельник, 8 декабря 2008 г.

Как избежать дублирования контента на Blogger?

Пост, который я обещал, и считаю с ним обязательно нужно ознакомиться всем пользователям Blogger!

Постоянные читатели, наверное, помнят, что одно время у меня начались проблемы с Google. До этого происшествия, все шло хорошо – Гугл любил меня, за это я любил Гугл, и до судного дня давал мне трафика в 4 раза больше чем Яндекс (это не связано с тем, что Гугл популярнее, просто Яндекс очень настороженно относится к blogspot, поэтому медленно запрягает, но зато потом нормально едет -). И тут в один день все закончилось. Google не выкинул меня из индекса, но, по всем запросам я мгновенно опустился так низко, что можно полдня капать, прежде чем докопаться до моего с треском изгнанного из серпа блога.

Конечно, версий было много – в принципе можно взять пост «9 факторов наиболее негативно влияющих на ранжирование в Google» и добавить еще столько же. Теоретически в любом из грехов при желании можно обвинить абсолютно любого, даже девственно чистого блоггера. Но почему же я решил, что моя проблема в дублированном контенте?

Во-первых, в первый же день я устранил 99% теоретически возможный внутренних причин, но спустя 1,5 месяца результата не было. До пессимизации я получал с Google 30-60 переходов в сутки, за полтора месяца в течение которых блог находился под фильтром – 10-15 за весь период! После того как я решил проблему с дублированием, уже на следующий день позиции начали восстанавливаться.

Почему спросите вы я сразу не начал решать проблему с дублированным контентом? Во-первых, я не думал, что ребята из команды Blogger на столько глупы, чтобы создавать сервис, который может нелепо попасть под нож своей же поисковой системы. Во-вторых, я уже давно привык, что новые посты индексируются в миг, и очень давно не заглядывал, в то, что индексирует Google. А когда заглянул - офигел. Офигел сразу после того как увидел количество страниц в индексе – их было раза в 3 больше чем должно было быть. Стал смотреть и обнаружил, что помимо собственно постов, проиндексирован «архив» и «рубрики».

Мне не понятно, что мешало разработчикам blogspot закрыть их от индексации, но если вы ставите эти виджеты себе на главную, рано или поздно ждите сюрприза, и чем больше накапливается контента, тем больше страниц в supplemental индексе и тем большим хламом считает ваш блог Google. Если у тебя перед глазами список проиндексированных страниц, и ты видишь задницу, сложно отрицать что это проблема, причем для Google это чуть ли не самое страшное прегрешение, а на расправу он быстр – проверено на себе!

Поэтому вопрос нужно было решать. В обычных случаях проблема решается достаточно просто – нужные страницы или разделы запрещаются в robot.txt, но, у пользователей Blogspot такой возможности нет. Несмотря на то, что файл robot.txt существует для каждого блога, и его даже можно посмотреть, ничего кроме это с ним не сделаешь…

Можно просто убрать архив и рубрики, но это не выход, потому, что я считаю их весьма полезными и нужными для читателя, поэтому для меня это не вариант.

Нужен был другой и их нашлось даже несколько, в итоге я остановился на предлагаемом здесь.

Сделать это можно с помощью очень простого мета-тэга. Наша задача запретить индексацию «архива», при этом главное не напортачить и не запретить индексацию главной и каждой страницы в отдельности.

1) Как обычно заходим «Макет – Изменить HTML», создаем buckup.
2) Находим наверху тэг <Head> и вставляем после него следующий код:

<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>

3) Сохраняем шаблон.

Как проверить что все сделано верно и операция прошла успешно? Щелкайте на любой месяц архива, после того как страница загрузится, нажмите CTRL-U чтобы посмотреть код, вверху страницы должен присутствовать следующий код:

<meta content='noindex,follow' name='robots'/>

Посмотрите таким же образом главную страницу, и страницу какого-нибудь поста. Этого кода ТАМ БЫТЬ НЕ ДОЛЖНО! Только на страницах архива и рубрик!

Несколько слов о рубриках – это еще одна причина почему я сразу не обратил внимание на дублирование контента. Дело в том, что они по умолчанию не индексируется, по крайней мере, я знаю точно что на прежних шаблонах индексация у меня была запрещена. Поэтому, каждому сообщению можно присваивать несколько ярлыков, потому что страницы разделов получаются динамические, а не статические. Такой порядок вещей – норма для любого «не кретинского шаблона». Но, как это бывает – «не все йогурты одинаково полезны», и при смене шаблона такие проблемы возможны. Если такая штука произошла у меня, то она возможна и у кого-то еще. К счастью, применение выше указанного рецепта, вылечило и это, несмотря на то, что явным образом рубрики в коде не фигурируют.

Итогом манипуляций было следующее – через день несколько запросов появились на привычных местах в выдаче, через 2 дня вернулись почти все. С ними само собой вернулся и трафик. Кроме того из индекса выпали все страницы архива и рубрик, а supplemental индекс, стал стремительно приближаться от показателей сайтов изгоев к трасту. Скажите совпадение и дело совсем не в дублированном контенте? Очень вряд-ли -).

Подписаться на RSS.

Еще читать:
Азбука терминов и жаргонизмов для SEO новичка
Зарабатываем с J2J. Инструкция для новичков.
Как вы планируете бюджет на раскрутку блога? Подведение итогов голосования.

64 комментария:

Мария8 декабря 2008 г. в 23:46
Эммм, нифига себе, какой контент на картинке... %)
ОтветитьУдалить
Ответы
Unknown9 декабря 2008 г. в 00:41
Ну да, что-то я загнул -).
ОтветитьУдалить
Ответы
Unknown9 декабря 2008 г. в 01:23
Спасибо за совет! Хоть контента еще мало, но на будущее подстраховаться не помешает.
ОтветитьУдалить
Ответы
kvasyok9 декабря 2008 г. в 10:56
Спасибо,Дима))) манипуляции провёл,буду смотреть на результат) Спасибо,дружище!
ОтветитьУдалить
Ответы
Анонимный9 декабря 2008 г. в 11:36
Сейчас проверю, рекомендации, а то Google что-то не очень мой блог уважает.

P.S. Картинка пугающая
ОтветитьУдалить
Ответы
Анонимный9 декабря 2008 г. в 14:14
Для блогов на этой платформе очень полезный мануал. У нас-то есть доступ к роботсу, а вам приходится кустарными методами защищатся от недоработок разработчиков сервиса.
ОтветитьУдалить
Ответы
Анонимный9 декабря 2008 г. в 14:52
Спасибо за совет, друже)
ОтветитьУдалить
Ответы
Анонимный9 декабря 2008 г. в 15:39
Спасибо за предупреждение! А то я смотрю: чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов:) Предупреждён - значит вооружён!
ОтветитьУдалить
Ответы
Анонимный10 декабря 2008 г. в 10:40
Вот так живешь и не знаешь, с какой стороны засада. По-моему, очень дельный совет. Спасибо!
ОтветитьУдалить
Ответы
Michael de`OZ17 декабря 2008 г. в 17:41
Спасибо. Сделал, посмотрим на результат
ОтветитьУдалить
Ответы
bottle22 декабря 2008 г. в 23:50
Спасибо. Воспользовалась после того, как заметила, что site-auditor начал показывать плохие цифры относительно гугла. Хоть на поисковый рейтинг это пока не повлияло, но я решила не откладывать.
ОтветитьУдалить
Ответы
Unknown23 декабря 2008 г. в 01:21
Я вот тоже дождался, потом разгребал, сейчас полный порядок. Так что правильно сделали что воспользовались рецептом, главное проверить все ли сделано верно, а то можно по ошибке на запрещать что не нужно (как проверить, есть в посте).
ОтветитьУдалить
Ответы
Allpa13 января 2009 г. в 04:50
>> чего это у меня проиндексировано страниц почти в 2 раза больше, чем есть постов <<

А как можно посмотреть, сколько чего проиндексировано? Ваще в этом не разбираюсь... :(
ОтветитьУдалить
Ответы
Unknown13 января 2009 г. в 11:15
Я пользуюсь утилитой Site-auditor, о ней написано вот здесь http://maxibiz.blogspot.com/2008/08/blog-post_30.html
или плагином для firefox SeoQuake, еще есть куча онлайн сервисов, например - http://maxibiz.blogspot.com/2008/09/seo_30.html
ОтветитьУдалить
Ответы
Unknown13 января 2009 г. в 11:16
А если без всяких инструментов, это можно сделать в поиске соответствующей поисковой системы.
ОтветитьУдалить
Ответы
Allpa13 января 2009 г. в 17:40
Проделала. Появился код вверху страницы архива.
Если смотреть главную, то эта строчка находится в длинном ряду массовых сведений ВНИЗУ страницы - в разделе SCRIPT TYPE="text/javascript", который выглядит примерно так (вообще там куча подобного текста):
data:page.isPrivate\47\76\n\74meta content\75\47NOINDEX,NOFOLLOW\47 name\75\47robots\47/\76\n\74/b:if\076'}});_WidgetManager._RegisterWidget('_LinkListView'

Точно такая же фигня и на странице исходного кода в отдельном сообщени.
Это что-то значит? Или всё нормуль, так и должно быть?
ОтветитьУдалить
Ответы
Allpa13 января 2009 г. в 17:57
>> например - http://maxibiz.blogspot.com/2008/09/seo_30.html <<

От здорово! Спасибо огромное. :)

А нет ли у тебя почитать про ключевые слова (нет, я понимаю кагбе их важность) - как и куда их добавлять в блог? Просто насовывать в новости?
Слуш... я тебя достала уже, кажется... прости...
ОтветитьУдалить
Ответы
Unknown13 января 2009 г. в 23:24
То Allpa: Что-то не так, пока не понял. Такого быть не должно, да и на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет. Лучше внимательно все повторить, заново. Про ключевые слова у меня что-то было, смотрите раздел "Продвижение в сети" и "Новичку". На счет "достали" не беда, единственное не всегда могу отвечать оперативно и полно.
ОтветитьУдалить
Ответы
Allpa14 января 2009 г. в 00:03
>> на сайте у Вас сейчас исходный код посмотрел нужных тегов в нужных местах нет <<

Как же нет, когда есть! Посмотри, плз, на скрин → http://img.skitch.com/20090113-fm7c12exfj2y8dbc5r7y2asjkd.jpg

Красным я обвела строчку, указывающую, что мы сейчас смотрим код именно январского архива (другого-то у меня и нет пока), а зелёным - тот код, о котором ты говорил в посте:

< meta content='noindex,follow' name='robots'/>

Разве нет?
ОтветитьУдалить
Ответы
Allpa14 января 2009 г. в 00:04
И разве мы не договорились на "ты"?.. Или я опять всё перепутала...
ОтветитьУдалить
Ответы
Unknown14 января 2009 г. в 00:34
Да все правильно теперь все нормально, на главной и страницах постов запрещающего тега нет, значит все правильно. На счет "ты", договаривались, но я имел в виду что меня стоит на "ты", потому что я по сути 27-и летний мальчишка -). Ну, на ты так на ты -).
ОтветитьУдалить
Ответы
DiVolk19 января 2009 г. в 05:11
Здесь видел еще один вариант:
homelessinbelarus.com/2008/01/serpa.html(но код почему-то в комменты "не может быть принят")
Интересно, какой вариант лучше?
И еще раз (для тех, кто в танке): Отдельно взятую страницу на Блогспоте можно закрыть от индексации? Если да, то как?
ОтветитьУдалить
Ответы
Unknown19 января 2009 г. в 11:28
Код без модернизации в комменты и не добавить. Вариант посмотрел, на первый взгляд там запрещается только архив, чего в принципе и достаточно, потому что рубрики (ярлыки) по умолчанию и так должны быть запрещены. Поэтому принципиальных отличий быть не должно.

Как запретить от индексации отдельную страницу, я честно говоря не задумывался, потому что не хочется мудрить и если у меня есть необходимость, я просто в теле поста, ставлю noindex/nofollow. Так можно запретить хоть весь текст определенной публикации. Вообще, в который раз жаль что нет доступа к robot.txt -).
ОтветитьУдалить
Ответы
Tanjah320 января 2009 г. в 16:39
Спасибо Максим действительно помогло
ОтветитьУдалить
Ответы
Unknown20 января 2009 г. в 20:35
То dmx: Пожалуйста. Я Дмитрий -).
ОтветитьУдалить
Ответы
Анонимный20 января 2009 г. в 23:41
Разобрался, изменил шаблон. Давно обратил внимание что гугл индексирует один и тот же материал много раз, но под разными адресами - это не есть хорошо. В общем спасибо! Думаю хуже никто себе не сделает, воспользовавшись этим советом.
ОтветитьУдалить
Ответы
Анонимный21 января 2009 г. в 00:07
Привет. Дима, если всё это проделать, то внешние ссылки на рубрики потеряют смысл?
То есть, допустим у тебя есть рубрика блоговодство и на неё куплено\поставлено от души:) 40-50 внешних ссылок, но так как она закрыта от индексации, то pr и тиц страницам находящимся в ней передаваться с неё не будет? Никак этот момент понять не могу.
ОтветитьУдалить
Ответы
Unknown21 января 2009 г. в 00:46
То holodoff: Проверено на себе уже 3-ий месяц все отлично!

То Анонимный: Да, с этим проблема. Ссылки ставятся для того чтобы поднять страницу в выдаче, а если ее запретить в серпе ее не будет потому что не будет в индексе. Но, бывают ситуации, как была у меня когда деваться некуда. Да, и обычные старницы продвигать легче, там хоть текст статичный, в отличии от рубрик, где страница меняется с каждым добавление нового поста, и почти нет контроля над оптимизацией текста. Кстати, если шаблон один из стандартных, то там рубрики в любом случае не индексируются.
ОтветитьУдалить
Ответы
Анонимный21 января 2009 г. в 13:50
То есть, если у меня стоит обычный minima, то мне нужно закрыть от индексации только архив?
И вот я еще где-то читал, что все эти операции можно сделать из гугл вебмастер - панели, только вот непонятно, там надо (если архив обновляется ежемесячно) каждый месяц добавлять урл на закрытие от индексации? И каждый раз когда меняется (динамический, как ты говоришь) урл у рубрики - тоже?
Епт, трудно сформулировать.
Да, Дима спасибо кстати за оперативный ответ, думал один не сплю ночью, а жизнь-то кипит :)
ОтветитьУдалить
Ответы
Unknown22 января 2009 г. в 12:59
То Анонимный: В принципе этот фрагмент кода закрывает сразу все что не нужно, поэтому в нем нет необходимости что-то менять, но по сути да, только архив. На счет вебмастер, не знаю, я даже не пробовал идти этим путем, потому что есть же еще и другие поисковые системы.
ОтветитьУдалить
Ответы
Slava22 января 2009 г. в 16:31
Спасибо, все получилось с первого раза.
ОтветитьУдалить
Ответы
Allpa23 января 2009 г. в 02:09
Гугль просканировал мой блог, и сообщил, что имеются УРЛы, запрещенные файлом robots.txt, а именно:

http://allpa-allpa.blogspot.com/search/label/
и
http://allpa-allpa.blogspot.com/feedReaderJson

Про ярлыки я уже поняла, что так и должно быть. А вот что это за "feedReaderJson"? Это как-то связано с моими попытками исключить из индексации Архив блога?
ОтветитьУдалить
Ответы
Allpa23 января 2009 г. в 02:16
По-прежнему не могу подписать на тебя по "мылу"... :(
ОтветитьУдалить
Ответы
Unknown23 января 2009 г. в 02:36
То Allpa: все как и должно быть - закрытие feedReaderJson, предотвращает дублирование контента за счет того что не индексируется фид. Так по умолчанию абсолютно на все blogspot блогах. Первое это ярлыки, они так же по умолчанию запрещены на всех стандартных шаблонах. Так что полных порядок. А вот про архив разработчики почему-то забыли, этот пост в первую очередь и решает данную проблему.

P.S. За "мыло" извиняюсь, сам не пойму в чем дело, может быть из-за переезда с feedburner, но пока у меня почему-то не получается починить, хотя дело плевое, до этого все работало, в аккаунте даже показаны активные подписчики...
ОтветитьУдалить
Ответы
Pulen26 января 2009 г. в 13:05
Дмитрий, спасибо за совет. Кстати, вроде бы не встречала у тебя - сайт, где можно проверить, насколько тебя любит Гугл, то есть отношение количества страниц в основном индексе к дополнительному индексу http://supplemental.name/. Так вот, мой блог с неиндексированным архивом -57%, а с индексированным -8%. Чего уж нагляднее...
ОтветитьУдалить
Ответы
Unknown27 января 2009 г. в 11:41
То Lunatik2811: В принципе по этому я про http://supplemental.name/ и упомянул. У меня была такая же картина. Здесь все логично, а самое главное, это наглядно показывает что способ работает.
ОтветитьУдалить
Ответы
Анонимный1 февраля 2009 г. в 12:41
Дмитрий, сделал все по инструкции еще в декабре, в коде страницы нужная строчка
присутствует. Плюс шаблон из стандартного набора Блоггера. А ярлыки один черт индексирует!=( И месяцы архива, хотя я его с главной страницы убрал... Подскажите, где может быть причина, пожалуйста!
ОтветитьУдалить
Ответы
Unknown1 февраля 2009 г. в 17:56
То Larri: Скорее всего это нормальных процесс, у меня тоже полность все не нужные страницы из индекса исчезали в течение месяца - двух. Наверное, нужно обращать внимание на динамику. Если как Вы говорите строка кода присутствует на нужных страницах, значит все должно быть нормально. Проследите динамику увеличения или наоборот уменьшения страниц в индексе Google, если положительных изменений не будет, пришлите мне адрес блог, будем разбираться.
ОтветитьУдалить
Ответы
Анонимный1 февраля 2009 г. в 20:41
Ясно. Наверное, правда поторопился.;) Спасибо за ответ!
ОтветитьУдалить
Ответы
Unknown1 февраля 2009 г. в 22:28
То Larri: Думаю, все будет в порядке, но если что обращайтесь.
ОтветитьУдалить
Ответы
Melnar Tilromen5 февраля 2009 г. в 22:48
Полезная инфа, спасибо.
ОтветитьУдалить
Ответы
Unknown7 февраля 2009 г. в 02:34
То Melnar Tilromen: на Anti-SEO тоже много интересного -)
ОтветитьУдалить
Ответы
Анонимный8 февраля 2009 г. в 06:12
У меня после добавления кода все вроде бы было нормально, но теперь если на странице есть комменты, то Google дублирует эту страницу, почему так?
ОтветитьУдалить
Ответы
Unknown8 февраля 2009 г. в 16:46
То OdinWall: Наблюдал подобное на одном блоге, на этом блоге у меня тоже первое время по непонятным причинам Гугл индексировал комменты, а скорее всего они были изначально, я просто не обращал внимания. Потом он все это хозяйство повыкидывал из индекса, правда до сих пор осталось несколько недобитых страниц. Думаю, это связано с тем что на некоторых шаблонах комментарии не закрыты. В этом конечно нет ничего смертельного, но и особой пользы тоже, потому что это по сути дубли. Сейчас, к сожалению не могу дать рекомендации, потому что способов которые я проверял пока нет, а проверка требует времени -). Как только у меня будут собственноручно проверенные результаты решения этой проблемы, обязательно опубликую.
ОтветитьУдалить
Ответы
Бродячий Проповедник8 апреля 2009 г. в 01:53
Сделал, как ты описал. Заметил такую вещь - у меня стали выпадать страницы из основного индекса. Хотя проверял все - теги в исходном коде появляются только на страницах архива. Может подскажешь, в чем дело?
ОтветитьУдалить
Ответы
Unknown9 апреля 2009 г. в 00:13
Бродячий Проповедник: так понимаю, проблемы с veschatel.blogspot? Посмотрел вроде все нормально, запрещающие теги только на архиве, на главной и каждая страница в отдельности - порядок. Из основного индекса и должны выпадать страницы, потому что дубли были проиндексированы, сейчас, после того как они были запрещены к индексации, при новых заходах пауков, запрещенные страницы будут вываливаться. В этом и смысл. Или проблема с тем что выпадают из индекса страницы постов которые не должны выпадать?
ОтветитьУдалить
Ответы
Анонимный29 мая 2009 г. в 10:22
Дмитрий а как с ярлыками? у меня ярлыки засчитаны как повтор мета описания...архив я вообще удалил, уф всё кровь выпили... может посоветуете что можно сделать?
ОтветитьУдалить
Ответы
Qoshni29 мая 2009 г. в 10:34
Попробовал.Но кажется не получилось или что-то недопонял.Что при моём уровне знаний по этой тематики не удивительно.Но спасибо за информацию.
ОтветитьУдалить
Ответы
Unknown4 июня 2009 г. в 01:28
То Qoshni: Проверить довольно легко, как это сделать написано в посте. Потом, ситуацию можно контролировать, например, с помощью утилиты Site-auditor, которая показывает количество проиндексированных страниц.
ОтветитьУдалить
Ответы
Роман5 июня 2009 г. в 11:54
Что-то все-равно сложно... нельзя ли просто теги "noindex" и "nofollow", чтобы робот в архив не переходил - а следовательно - не будет индексировать
ОтветитьУдалить
Ответы
Владимир Концевич14 декабря 2009 г. в 03:00
Последний раз писали давно, но всё же..
Разместил указанный код у себя в блоге ( o-vybore.blogspot.com ). Всё с кодом как нужно, только Гугл всё равно проиндексировал метки/теги и уже месяц не желает удалять из индекса эти страницы. В чём может быть причина?
ОтветитьУдалить
Ответы
Николай27 декабря 2009 г. в 03:18
Искал и нашел.Спасибо за код нужный,а то гугл стал ругаться
ОтветитьУдалить
Ответы
Sladkoezka25 февраля 2010 г. в 20:56
спасибо большое за помощь! =)
ОтветитьУдалить
Ответы
Anna14 апреля 2010 г. в 17:26
Дима, скажи, пожалуйста, этот код работает в классическом шаблоне? если нет, то есть ли какие-то альтернативы?
ОтветитьУдалить
Ответы
Unknown14 апреля 2010 г. в 17:47
То Anna: На счет классического не знаю, уже несколько лет как классическим шаблоном не интересуюсь, но, думаю, должен работать.
ОтветитьУдалить
Ответы
Anna15 апреля 2010 г. в 10:08
спасибо, и за оперативность тоже )))
ОтветитьУдалить
Ответы
Сергей22 мая 2010 г. в 09:38
Не могу поныть у меня вобще нет noindtcs индекс что на главной что в архиве что может быть не правильно шаблон родной изменений не было
ОтветитьУдалить
Ответы
anna grin7 июля 2010 г. в 23:43
Ой спасибо за инфу.пошла у себя копаться,а то у меня все посты заблокированы копец какой-то.блог молодой,так гуглик его вообще игнорирует.
ОтветитьУдалить
Ответы
Димка19 сентября 2010 г. в 21:07
Оу много подобных постов. Но твой лучший респект =)
ОтветитьУдалить
Ответы
Alan Usen4 октября 2010 г. в 09:37
Я ничего не пойму. Сделал все по инструкции. В гугл веюмастер тулз показывает, что ярлыки закрыты от индексации, но все страницы из раздела лейблз - в индексе. То есть гуглу все нофоллов и ноиндекс уже пофиг? Что делать? Страниц в индексе в 2 раза больше, чем постов в блоге.
ОтветитьУдалить
Ответы
Unknown4 октября 2010 г. в 10:57
То Oleg: Скорее всего дело в инерции, у меня тоже Google очень долго выкидывал из индекса дубли, поэтому нужно просто подождать, все должно быть нормально.
ОтветитьУдалить
Ответы
NMitra5 ноября 2010 г. в 11:49
Как вы боретесь со страницами, типа http://maxibiz.blogspot.com/2008/12/blogger.html?showComment=... Интересует Яндекс. У меня висит подобная страница, не могу удалить.
ОтветитьУдалить
Ответы
Unknown5 ноября 2010 г. в 12:09
To NMitra: С такими страницами есть проблемы, но я с ними не борюсь рано или поздно они обязательно выпадают из индекса.
ОтветитьУдалить
Ответы
Анонимный11 декабря 2010 г. в 23:27
А всё таки? Вопрос интересный. Точно выпадают из индекса Яндекса? Через какое время? Есть предположение, что у меня из-за комментариев позиции в выдаче падают :(

Рустем
ОтветитьУдалить
Ответы