Как создать файл robots.txt

А давайте-ка для разнообразия запостим сюда что-нибудь полезное.
Не все же писать здесь всякую чушь про разные рутрекеры и тому подобное.

Сегодня потолкуем о том, как создать файл robots.txt.

Но для начала, наверное, следует рассказать, зачем этот файл нужен и что он дает.
Как видно из расширения – robots.txt представляет собой обыкновенный текстовый файлик, который помещается в корень сайта.
(Это значит, что он доступен по адресу http://www.site.com/robots.txt)

С помощью этого простого файла можно управлять индексацией сайта или блога. Например, с помощью файла robots.txt можно запретить поисковикам индексировать сайт. Или запретить индексировать отдельные его документы. Запретить можно как всем поисковикам поголовно, так и особо отличившимся. Другие при этом – будут индексировать сайт беспрепятственно.

Что будет, если вебмастер не захотел создать файл robots.txt?

Все просто: набежавший на сайт поисковый бот проиндексирует все области сайта, куда сможет залезть.
А залезть он может много куда, смею вас уверить.
И на каждом сайте или блоге есть ряд областей, лезть в которые поисковому боту ну совершенно не стоит.

  • Первое, что нужно уяснить: чтобы создать файл robots.txt, нужно пользоваться правильным текстовым редактором. Под словом «правильный редактор» здесь подразумевается что-то наподобие notepad 2, а не виндозный «блокнот».
  • Второе, что нужно уяснить: название файла – должно начинаться с маленькой буквы: robots.txt. Никакого верхнего регистра там быть не должно.

Основные директивы файла robots.txt

Итак, мы хотим создать файл robots.txt. Взяли редактор, создали. Однако наш файл пока что пуст. Его надо чем-то заполнить. Чтобы заполнить – необходимо знать основные правила создания файла robots.txt, его синтаксис и директивы.

  • Директива User-agent. После нее обычно пишут название робота поисковой системы. То есть эта директива показывает, кому адресованы указания, которые идут после нее.
  • Указания могут быть как разрешающие (это директива Allow), так и запрещающие (директива Disallow).
  • Кроме этих директив в файле robots.txt часто применяют директиву Sitemap, после обычно прописывается адрес, по которому робот может отыскать карту сайта.
  • И да, еще есть директива Host. Считается, что она позволяет сообщить роботу, какое зеркало сайта следует считать основным. Это может быть зеркало с префиксом www, или без префикса www.

Правильный файл robots.txt

  • Первое (оно же главное) правило при создании файла роботса: в правильном файле robots.txt должна быть как минимум одна запрещающая директива (Disallow).
    Причем идти эта директива должна обязательно после директивы User-agent.
  • И второй момент – правильный файл robots.txt пишется по такой вот схеме:

Схема файла robots.txt

Подробнее о директиве User-agent

После этой директивы – обычно указывается название какого-то поискового бота. Либо эта директива может быть обращена абсолютно ко всем поисковым ботам, которые оказались на вашем сайте. Если требуется именно это, то после юзерагента ставят звездочку.
И выглядит все это – примерно вот так:

User-agent: *

(Пресловутая звездочка – означает произвольную последовательность символов. Эта последовательность – может быть и пустой, что и подразумевается в данном случае).

Если же вы хотите с помощью юзерагента обратиться к роботу какой-то конкретной искалки – следует указать после директивы название поискового бота этой поисковой системы. К примеру, если вы хотите что-то сказать гуглу, то юзерагент будет вот таким:

User-agent: Googlebot

Естественно, роботы каждой искалки имеют свои названия. Некоторые из роботов – перечислены ниже в списке поисковых ботов.

Список роботов поисковых систем

Однако тут нужно помнить, что роботов у поисковых систем – очень много. У того же яндекса этих роботов – чертова прорва. Каждый из них – имеет свои специфические функции.
А в таблице – только самые популярные названия поисковых роботов, так сказать.

Применение директив на практике

Самый простейший файл robots.txt (каковой и используется в настоящий момент на этом блоге) выглядит вот так:

User-agent: *
Disallow:

Как видите, после директивы User-agent стоит звездочка, а после запрещающей директивы Disallow не прописано ничего. Это значит, что всем без исключения ботам разрешается индексировать все без исключения области сайта.

Если требуется запретить всем ботам индексировать сайт, то следует после Disallow поставить слэш. Вот так:

User-agent: *
Disallow: /

Если требуется запретить всем без исключения ботам индексировать какую-то папку – следует поместить название этой папки между парой слэшей:

User-agent: *
Disallow: /folger/

Это может быть какой угодно каталог, папка с изображениями или что-либо еще. (При этом предполагается, что папка – доступна по адресу http://www.site.com/folger/).

В предыдущем примере говорилось о конкретном каталоге. Если же требуется запретить для индексации все, что мало-мальски походит на этот каталог и как-то с ним связано, слэш следует оставить только один, вот так:

User-agent: *
Disallow: /folger

Теперь все, что начинается со слова folger, независимо от окончания и расширения – будет запрещено для индексации.

Это – самые общие и самые простые правила составления пресловутого файлика.

Пример файла robots.txt для wordpress

Да, заметка была бы неполной без примера рабочего файла robots.txt для wordpress. Подчеркиваю особо: этот файл – именно для движка wordpress, поскольку на других движках – просто нет таких папок и каталогов. Выглядит этот файл примерно вот так:

Пример файла robots.txt для wordpress

Как видите, этот файл запрещает для индексации массу вещей. Нельзя индексировать админку и все, что туда входит, нельзя индексировать папку с плагинами, папку с темами, нельзя индексировать папку, созданную кэширующим плагином, папку с трекбеками, и много чего еще. Все это – прописано в первом блоке файла robots.txt для вордпресс. Там же прописана директива sitemap и адрес с картой сайта, а также адрес со сжатым архивом карты сайта.

Второй блок – относится сугубо к яндексу, который прописан после директивы юзерагент. В этом блоке все то же самое, но в конце добавлена директива host, дающая понять роботу яндекса, что основным зеркалом сайта следует считать зеркало с префиксом www.



Запись опубликована в рубрике SEO. Добавьте в закладки постоянную ссылку.