Файл Robots.txt для Блогспот/Blogger, где ты?



Фавикон у Blogger Пост (в основном) для пользователей:

Отрубили фанфары праздничного оркестра, по поводу нововведений на платформе Блогспот! Сколько было разговоров "брызг шампанского", радости, веселья и надежд! Только, что праздничного салюта не было! Прошло время и... ТИШИНА!
 
Появившаяся надежда развернуть "Блоггер" лицом, а не задницей к поисковику всея Руси - Яндексу, застыла в мучительном ожидании.
Вордпресс по прежнему впереди Блогспота, как бы в укоризну "халявному фри-блоггингу" и постоянно всплывает набившая оскомину тема - плохая индексация Яндексом!
 
Как то решил проверить индексацию своего блога и ужаснулся - море дублированного контента в виде:
            http://адрес_страницы?showComment=1300141814394#c8988
Причин тут конечно же быть может много. Но мне кажется одна из них, это игнорирование новой возможности добавить, так называемый пользовательский файл Robots.txt, в настройку индексирования Яндекс-вебмастер.
 
Вообще написано на эту тему не мало, а варианты Robots.tx для Вордпресса, исчисляются сотнями.
Чего, к сожалению нельзя сказать про Блогспот. Тут для пересчета, вполне хватит пальцев одной руки!
 
Итак я подготовил краткий обзор имеющихся в Рунете вариантов, а в конце поста опубликую файл Robots.txt, который использую сам.
Так выглядит этот файл по-умолчанию (для тех, кто не знает где его найти, на всякий случай публикую скриншот).

 
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (по-умолчанию карта сайта берется из RSS).
Allow: / означает, что все содержание блога открыто для сканирования поисковой системой.

Сайт Шпаргалка блоггера предлагает следующий вариант:
 
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / 
Allow: /*.html$ # (разрешает сканировать статичные страницы)
Allow: /$ # (разрешает сканировать Главную страницу)
Sitemap: http://адрес_блога/feeds/posts/default?orderby=updated (карта сайта берется из RSS)

Публикую еще варианты:
 
Файл Robots.txt опубликованный на блоге "bratmos"
http://www.bratmos.com/2012/04/blogger-i-robotstxt.html?utm_source=BP_recent#axzz1zz9uaBhx

 
User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /

Sitemap: http://bratmos.com/feeds/posts/default?orderby=updated

User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /tags/
Allow: /


 
Еще один Robots.txt источник "avitra.ru"
http://www.avitra.ru/2012/03/robotstxt.html
 
User-аgent: Mediapartners-Google
Disаllow:
 
User-agent: *
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /


Sitemap: http://www.avitra.ru/feeds/posts/default?orderby=updated


User-agent: Yandex
Disallow: /search/
Disallow: /search/label/
Disallow: /*archive.html
Allow: /
 
Ну и наконец поговорим о Robots.txt, который установил у себя я. Как было уже отмечено в начале поста, каждый новый комментарий стал создавать проиндексированную страницу вида:

http://адрес_страницы?showComment=1300141814394#c8988727275282672241


Скорей всего это произошло именно у меня, из за кросспостинга. Я наладил цепочку - комментарий попадает в Твиттер, а оттуда в Яндексовский блог на Я.ру. Таким образом каждый новый комментарий пополняет Твиттер ленту (да не одну) и попадает в конечном итоге на Яндексовский ресурс. Своеобразный автоматический Пиар в сети. Но переборщил я видимо с Пиаром, вот и появились в индексе все комментарии, отдельными страницами.
 
Информация для любителей теории - считается,  что Яндекс учитывае атрибут rel="canonical", который не допускает дублирования страниц. Но в моем случае, видимо Яндекс на этот атрибут забил! Дублей становилось все больше и больше. Стало "попахивать" АГС! Поэтому срочно пришлось прописывать в файле Robots.txt:
 
Disallow: /feeds/comments
Disallow: /*?showComment*
 
На следующий день дублей showComment больше не стало, а поскольку ярлыков и архива у меня нет, то мой вариант теперь выглядит так:
 
User-agent: Mediapartners-Google
Disallow:


User-agent: *
Disallow: /search
Disallow: /p/search.html
Allow: /


Sitemap: http://blogodel.com/feeds/posts/default?orderby=updated


User-agent: Yandex
Disallow: /search
Disallow: /p/search.html
Disallow: /feeds/comments
Disallow: /*?showComment*
Allow: /
 

Внимание, если будете для себя применять эти файлы, обратите внимание на то, что в промежутках по вертикали расстояние должно быть в одну строчку!


Дорогие читатели, тема "Robots.txt для Блогспот" не закрыта и по мере накопления информации будет продолжение!
Ар! Кстати очень простая и удобная фишка, что бы подсмотреть файл Robots.txt на других, авторитетных сайтах.
 
Адрес сайта/robots.txt
http://www.sait.ru/robots.txt


69 коммент.:

Анжела Матвеева
Justus
Nadia Lyakh
Justus
aldous
Justus
Константин Кирилюк
Justus
Николай Шихтенков
Justus
Justus
Вадим Маслий
Капитан Борода
Капитан Борода
Justus
Andrey
Qui-Gon
ReX
Justus
ReX
Daniel Harris
Justus
CherT
Justus
Раушан Базарбаева
Justus
Marina Kouyarova (piceaobovata)
Justus
Marina Kouyarova (piceaobovata)
Justus
Елена Калашникова
Justus
Елена Калашникова
Елена Калашникова
Justus
Andrey a
Justus
Andrey a
Justus
Andrey a
Николай Калашников
Justus
Николай Калашников
Максим
Justus
Николай Калашников
ВЕРА_К (123VK)
Justus
Эдуард
Эдуард
Tatyana Zaychenko
Василий Владимирович
Justus
Сайхан Сосланбеков
Justus
Сайхан Сосланбеков
Justus
Сайхан Сосланбеков
xxdevil
SalimOff Rishat
Alex Shevchenko
Вадим Маслий
I-migrant USA
Андрей Кравцов
Андрей Кравцов
Андрей Кравцов
Муким Максуди
Санскр
Monitoring Game

Отправить комментарий

Можно применять теги: <b></b><i></i><br />
<br />


Доска почета

Плюсани блог!