Файл Robots.txt для Блогспот/Blogger, где ты?



Фавикон у Blogger Пост (в основном) для пользователей:

Отрубили фанфары праздничного оркестра, по поводу нововведений на платформе Блогспот! Сколько было разговоров "брызг шампанского", радости, веселья и надежд! Только, что праздничного салюта не было! Прошло время и... ТИШИНА!
 
Появившаяся надежда развернуть "Блоггер" лицом, а не задницей к поисковику всея Руси - Яндексу, застыла в мучительном ожидании.
Вордпресс по прежнему впереди Блогспота, как бы в укоризну "халявному фри-блоггингу" и постоянно всплывает набившая оскомину тема - плохая индексация Яндексом!
 
Как то решил проверить индексацию своего блога и ужаснулся - море дублированного контента в виде:
            http://адрес_страницы?showComment=1300141814394#c8988
Причин тут конечно же быть может много. Но мне кажется одна из них, это игнорирование новой возможности добавить, так называемый пользовательский файл Robots.txt, в настройку индексирования Яндекс-вебмастер.
 
Вообще написано на эту тему не мало, а варианты Robots.tx для Вордпресса, исчисляются сотнями.
Чего, к сожалению нельзя сказать про Блогспот. Тут для пересчета, вполне хватит пальцев одной руки!
 
Итак я подготовил краткий обзор имеющихся в Рунете вариантов, а в конце поста опубликую файл Robots.txt, который использую сам.
Так выглядит этот файл по-умолчанию (для тех, кто не знает где его найти, на всякий случай публикую скриншот).

 
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

Сайт Шпаргалка блоггера предлагает следующий вариант:
 
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / 
Allow: /*.html$ # (разрешает сканировать статичные страницы)
Allow: /$ # (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)

Публикую еще варианты:
 
Файл Robots.txt опубликованный на блоге "bratmos"
http://www.bratmos.com/2012/04/blogger-i-robotstxt.html?utm_source=BP_recent#axzz1zz9uaBhx

 
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /

Sitemap: http://bratmos.com/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /


 
Еще один Robots.txt источник "avitra.ru"
http://www.avitra.ru/2012/03/robotstxt.html
 
User-аgent: Mediapartners-Google
Disаllow:
 
User-agent: *
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /


Sitemap: http://www.avitra.ru/feeds/posts/default?orderby=updated


User-agent: Yandex
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /
 
Ну и наконец поговорим о Robots.txt, который установил у себя я. Как было уже отмечено в начале поста, каждый новый комментарий стал создавать проиндексированную страницу вида:

http://адрес_страницы?showComment=1300141814394#c8988727275282672241


Скорей всего это произошло именно у меня, из за кросспостинга. Я наладил цепочку - комментарий попадает в Твиттер, а оттуда в Яндексовский блог на Я.ру. Таким образом каждый новый комментарий пополняет Твиттер ленту (да не одну) и попадает в конечном итоге на Яндексовский ресурс. Своеобразный автоматический Пиар в сети. Но переборщил я видимо с Пиаром, вот и появились в индексе все комментарии, отдельными страницами.
 
Информация для любителей теории - считается,  что Яндекс учитывае атрибут rel="canonical", который не допускает дублирования страниц. Но в моем случае, видимо Яндекс на этот атрибут забил! Дублей становилось все больше и больше. Стало "попахивать" АГС! Поэтому срочно пришлось прописывать в файле Robots.txt:
 
Disallow: /feeds/comments
Disallow: /*?showComment*
 
На следующий день дублей showComment больше не стало, а поскольку ярлыков и архива у меня нет, то мой вариант теперь выглядит так:
 
User-agent: Mediapartners-Google
Disallow:


User-agent: *
Disallow: /search
Disallow: /p/search.html
Allow: /


Sitemap: http://blogodel.com/feeds/posts/default?orderby=updated


User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /feeds/comments
Disallow: /*?showComment*
Allow: /
 

Внимание, если будете для себя применять эти файлы, обратите внимание на то, что в промежутках по вертикали расстояние должно быть в одну строчку!


Дорогие читатели, тема "Robots.txt для Блогспот" не закрыта и по мере накопления информации будет продолжение!
Ар! Кстати очень простая и удобная фишка, что бы подсмотреть файл Robots.txt на других, авторитетных сайтах.
 
Адрес сайта/robots.txt
http://www.sait.ru/robots.txt


69 коммент.:

Анжела Матвеева
Justus
Надежда
Justus
aldous
Justus
wmascat
Justus
Анонимный
Justus
Justus
Вадим Маслий
Unknown
Unknown
Justus
Andrey
Qui-Gon
ReX
Justus
ReX
Unknown
Justus
Tim Tchervyakov
Justus
heifyf
Justus
M K
Justus
M K
Justus
Unknown
Justus
Unknown
Unknown
Justus
andrey
Justus
andrey
Justus
andrey
Unknown
Justus
Unknown
Максим
Justus
Unknown
ВЕРА_К (123VK)
Justus
Эдуард
Эдуард
Tania
Василий Владимирович
Justus
Unknown
Justus
Unknown
Justus
Unknown
xxdevil
Rinat Salimov
JeanParis
Вадим Маслий
Unknown
Unknown
Unknown
Unknown
Unknown
Санскр
Unknown

Отправить комментарий

Дорогие Друзья! К сожалению, по причине здоровья, моя активность по этому блогу будет осуществляться по мере ВОЗМОЖНОСТИ!

Доска почета

Плюсани блог!