Поддержка сайта

Высокие позиции в поисковой системе, на прямую зависят от развития вашего сайта.

Продвижение сайтов

Эффективность стратегий продвижения подтверждается сотрудничеством с крупными клиентами и отзывами о нашей работе.

Создание сайтов

Мы делаем сайты быстро, недорого и профессионально. От работы с нами, у вас останутся только положительные эмоции.

Что такое robots.txt. Идеальный robot.txt для WordPress

.

Для того, чтобы страницы сайта быстрее индексировались поисковыми системами, и чтобы поисковик знал, какие страницы можно индексировать, а какие нет, придуманы специальные правила, которые записываются в файл robots.txt. По сути, это обычный текстовый документ с набором несложных правил, который размещают в корне сайта.

Если вы пользуетесь системой управления сайтом (CMS), то у вас на сайте создается большое количество файлов, которые не представляют ценности для пользователей, поэтому их целесообразно скрывать от поисковых систем. Кроме того, может иметь место дублирование контента, что может привести к писсимизации сайта поисковыми системами. Это может произойти из-за того, что на одну и ту же страницу ведут разные ссылки (это случается, например, если вы используете ЧПУ (человекопонятные УРЛы)).

 

Синтаксис robots.txt

Синтаксис файла robots.txt очень прост. Директива User-agent указывает на поисковую систему, для которой будут указываться правила. Allow директива, которая указывает страницы, которые можно индексировать и Disallow директива, которая указывает страницы, которые запрещено индексировать. Если указана запись User-agent, то обязательно должна быть указана директива Disallow, даже если она пуста. Например
User-agent: Yandex
Disallow:

Здесь также полезно указать, где находится карта вашего сайта, чтобы помочь поисковому роботу быстрее определить нужный контент для индексации.
Для указания карты сайта в формате xml используется директива Sitemap. Еще очень важно указать, какое из зеркал вашего сайта (с www или без него) является главным в директиве Host, например:

User-agent: Yandex
Disallow: /files/
Host: seostager.ru

Теперь о правилах написания. Правильной будет следующая конструкция:
поле : пробел значение пробел
поле : пробел значение пробел
Каждая новая директива начинается с новой строки.
Если вы хотите указать правила для всех поисковых систем, то в директиве User-agent нужно прописать символ *. Вообще этот символ имеет значение все остальное, поэтому его можно использовать во всех директориях, например для того, чтобы показать поисковику, что он не должен индексировать все файлы, имеющие раширение .jpg

User-agent: *
Disallow: *.jpg

или
User-agent: Yandex
Disallow: /images/*.aspx

Подробнее про файл robots.txt можно почитать в факе на яндексе http://help.yandex.ru/webmaster/?id=996567
Если вы не знаете, какой robots.txt составить для своего сайта, то полезно будет побродить по сайтам со схожей тематикой и одинаковой CMS (если вы ей пользуетесь). Все robots.txt открываются по адресу http://site.com/robot.txt. Возможно так вы найдете наиболее подходящий для вас вариант.

Альтернатива robot.txt

Есть также альтернативный способ сообщить поисковикам о том, можно ли индексировать страницу или нет. Это мета-тег Robots. Этот мета-тег необходимо прописать на каждой из страниц, которые не нужно индексировать. Мета тег будет выглядеть так:
<meta name=robots content=noindex,nofollow>

.

Читайте так же:
Not found