Файл robots.txt. С чем его едят?

Автор: Soldat · Дата: 7 августа 2009 · Прокомментировать

моя фотография
Приветствую всех. Сегодня хочу поделиться своим мнением о целесообразности использования файла robots.txt для ваших сайтов и персональных блогов. Я думаю что это за robots.txt многим объяснять не надо. Если же кто еще не в курсе, то это текстовый файл, находящийся в корневой директории вашего сайта (http://yuosite/robots.txt) и позволяющий вам запретить к индексации поисковым роботам какие-либо страницы или целые директории. Для чего же их запрещать? Дело в том, что если на вашем сайте множество динамических страниц, глубоких директорий или просто плагиат и вы не хотите, чтобы все это дело было доступно для индексации поисковым роботам, то запрет для индексации вы можете прописать в файле robots.txt. Конечно для запрещения индексации вы всегда можете использовать тег noindex , но насколько я знаю он используется для Яндекса и прописывать его везде просто устанешь. Использование robots.txt просто удобнее. Я, например, всегда закрываю от индексации новостные блоки если они имеют место быть на сайте.

Создать файл роботс.тхт можно в любом текстовом блокноте, затем обозвать его robots.txt и закачать на сервер. Кстати, сейчас у многих хостеров есть удобная форма для создания и редактирования robots.txt прямо в админке.

Не буду досконально расписывать все команды и функции, которые используются в этом файле. Подробно о robots.txt вы можете прочесть в панели вебмастера Яндекса . В кратце же стандартный robots.txt выглядит так…

User-agent: {имя поискового паука, которому вы хотите запретить или разрешить индексацию}
Disallow: {имя файла или папки, запрещенных к индексации}

К примеру вы хотите запретить индексацию для робота Yandex файла, который расположен по адресу http://yuosite/product_info.php, то robots.txt будет выглядеть так…

User-Agent: Yandex
Disallow: /product_info.php

Следует заметить, что имена поисковых пауков не всегда совпадают с именами поисковых систем, к которым он относится. Вот небольшой список названий пауков для наиболее популярных ПС:

Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp:
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp

Кстати, однажды столкнулся с небольшой проблемой. Хотел закрыть от индексации картинки для Гугля. Ничего не получалось, пока не наткнулся на информацию о том, что оказывается у Google имя поискового паука для картинок не Googlebot, а Googlebot-Image. Век живи, век учись.

Если честно, то в первое время (примерно в течение полугода с начала работы в интернете) я в процессе создания и продвижения сайтов никогда не использовал файл robots.txt. Скорее всего это мое игнорирование было связано с природным разгильдяйством, да и тратить время на изучение robots.txt просто было жалко. Теперь, по прошествии времени, я понимаю, что конечно использование robots.tx - это основа основ. Да и пишу я эту статью скорее для новичков, чтобы не повторяли моих ошибок.

Я не говорю, что использование файла robots.txt - это панацея. Например, проанализировав блоги нескольких известных рунетовских блоггеров, я обратил внимание, что в robots.txt у них прописано минимум запретов. К примеру результаты поиска, запрет зеркал сайта, указание паукам на карту сайта и т. д. Некоторые вообще robots.txt не используют. Так как большинство блогов находится на популярном движке wordpress, то для меня это немного странно. Wordpress генерирует множество ненужных страниц, к примеру страницы тегов. Недавно наткнулся на одном из блогов на “правильный robots.txt для wordpress. Выглядит он так:

User-agent: Yandex
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yousite.ru

User-agent: *
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://www.yousite.ru/sitemap.xml
Sitemap: http://www.yousite.ru/sitemap.xml.gz

В принципе с таким robots.txt для wordpress согласен, только я не стал бы закрывать от индексации комментарии и картинки.
Небольшой комментарий: Host: www.yousite.ru - закрытие от индексации зеркал сайта;
Sitemap: http://www.yousite.ru/sitemap.xml - прописывание карты сайта в формате xml. Дело в том, что для всех поисковых пауков намного удобнее индексировать сайт, используя его карту, а так как любой паук при посещении сайта прежде всего обращается к файлу robots.txt, то полная индексация нужных директорий вашего сайта гарантирована.

При создании файла robots txt очень важно не ошибиться, так как недолго наделать ошибок и закрыть от индексации весь сайт. Проверить на корректность robots txt вы можете используя панели вебмастера и .

Резюмируя все выше написанное можно сказать, что использовать или нет файл robots.txt при создании сайта дело каждого вебмастера. Я же настоятельно рекомендую по крайней мере robots.txt не игнорировать, а внимательно изучить и решить нужен он вам или обойдетесь так.

Искренне ваш, Солдат от seo.

Метки:, ,

Также рекомендую почитать по этой теме:

Рубрика: Создание сайтов · Запись имеет метки: , ,  

Комментарии

  1. пишет:

    Лично я, не пользуюсь этим файлом. Правильно вы пишите, что если напортачить с robots.txt, то и проблем будет… Но в то же время, он просто необходим для сокрытия от поисковиков каких-нибудь файлов, например которые Вы продаёте.

  2. пишет:

    А меня вот какой вопрос заинтересовал.
    Вы так все это дело грамотно расписываете, а очень хотелось бы узнать. Почему же Ваш сайт имеет нулевые позиции? Если Вы все знаете, как и что делать для его оптимизации и раскрутки.

  3. пишет:

    Ха. Что значит нулевые позиции? Тыц и пыр? Когда был последний ап и сколько месяцев блогу?
    Я себя не на помойке нашел и время все покажет.
    А за пузомерками я никогда не гнался.

  4. пишет:

    Приятно думать, что остались действительно блоги в этой мусорке рейтинга Яши. Ваш - один из таких. Спасибо!

  5. пишет:

    Турецкая полиция в рамках общеевропейского расследования дела о договорных футбольных матчах задержала 46 особа.

    Сиречь сообщает Би-би-си, задержания были произведены сразу в нескольких городах, между взятых перед стражу скольконибудь известных турецких футболистов и тренеров.

    Немецкие следователи полагают, кто конец порядка 200 матчей в 11 европейских странах, включая Турцию, был предрешен, и подозревают в сговоре игроков и судей.

    Аресты в рамках расследования о договорных матчах коекогда происходят в Турции, поскольку в стране несть закона, описывающего подобные нарушения.

    Напомним, в феврале контрольно-дисциплинарная инстанция УЕФА (КДИ) на основании информации, полученной через немецкой полиции, которая расследовала цепь подозрительных матчей и инциденты с коррупцией, приняла решение о .



Оставить комментарий или два


jAntivirus