Что такое robots.txt | ВесьТоп создание и продвижение сайтов

Поддержка сайта

Высокие позиции в поисковой системе, на прямую зависят от развития вашего сайта.

Продвижение сайтов

Эффективность стратегий продвижения подтверждается сотрудничеством с крупными клиентами и отзывами о нашей работе.

Создание сайтов

Мы делаем сайты быстро, недорого и профессионально. От работы с нами, у вас останутся только положительные эмоции.

Что такое robots.txt

Это здорово, когда поисковые системы часто посещают ваш сайт и индексируют его контент, но бывают случаи, когда проиндексированные части вашего онлайн-контента не то, что вам нужно. Например, если у вас есть две опции на одной странице (одна для просмотра в браузере, а другая для печати), вы предпочли бы исключить печатную версию из поисковых роботов и пауков, так как вы рискуете быть наказанными за дублирование контента. Кроме того, если у вас есть личные данные на вашем сайте, которые вы не хотите, чтобы мир видел, вы также предпочтете, чтобы поисковые системы НЕ индексировали эти страницы (хотя в этом случае единственный верный способ не индексировать личные данные — это держать их в автономном режиме на отдельной машине. ). Кроме того, если вы хотите сэкономить трафик за счет исключения изображений, стилей и JavaScript из индексации, вам также понадобится способ запретить паукам индексировать (остерегаться) эти элементы.
Что такое ROBOTS.TXT
Один из способов указать поисковым системам, каких файлов и папок на вашем веб-сайте следует избегать, — это использовать роботов с метатегами. Но поскольку не все поисковые системы читают метатеги, метатег Robot может просто остаться незамеченным. Лучший способ сообщить поисковым системам о своем желании — использовать файл robots.txt.

Что такое Robots.txt?

Robots.txt — это текстовый (не HTML) файл, который размещается на вашем сайте, чтобы сообщить роботам, какие страницы вы не хотели бы посещать. Ни при каких обстоятельствах поисковые системы не обязаны делать то, что написано в Robots.txt, но они обычно подчиняются тому, чего их просят не делать. Важно уточнить, что robots.txt не является способом предотвратить сканирование вашего сайта поисковыми системами (т.е. это не брандмауэр или тип защиты паролем) и тот факт, что вы разместили файл robots.txt, это все равно, что поставить пометку "Пожалуйста, не входите" на незапертую дверь. Вот почему мы говорим, что если у вас есть действительно конфиденциальные (личные) данные, слишком наивно полагаться на robots.txt, чтобы предотвратить его индексирование и отображение в результатах поиска.
Расположение robots.txt очень важно. Он должен находиться в корневом каталоге, иначе пользовательские агенты (поисковые системы) не смогут его найти — они не ищут файл с именем robots.txt по всему сайту. Вместо этого они сначала проверяют корневой каталог (например, http://mydomain.com/robots.txt), и если они ничего там не находят, они просто предполагают, что на этом сайте нет файла robots.txt, и поэтому индексируют все которые они встречают на своем пути. Так что, если вы не поместите robots.txt вместо него, не удивляйтесь, что поисковые системы индексируют весь ваш сайт.
Концепция и структура robots.txt были разработаны более десяти лет назад, и если вам интересно узнать о нем больше, посетите http://www.robotstxt.org/ или вы можете перейти непосредственно к стандарту исключения роботов ), потому что в этой статье мы рассмотрим только самые важные аспекты файла robots.txt.

Структура файла robots.txt

Структура robots.txt довольно проста (и почти не гибка) — это бесконечный список пользовательских агентов и запрещенных файлов и каталогов. В общем, синтаксис следующий:
Пользовательский агент:
Запретить:
«User-agent» — это роботы поисковых систем, а «Disallow» — список файлов и каталогов, которые нужно исключить из индексации. Помимо «User-agent:» и «Disallow:» вы можете добавить комментарий — просто поставьте знак # в начале строки:
# Всем пользовательским агентам запрещено видеть каталог / temp.

Пользовательский агент: *
Запретить: / temp /

Ловушки файла robots.txt

Когда вы начинаете создавать сложные файлы — т.е. вы разрешаете различным пользовательским агентам получать доступ к разным каталогам — проблемы могут начаться, если вы не уделите особого внимания подводным камням файла robots.txt. Распространенные ошибки включают опечатки (опечатки) и противоречащие директивы. Опечатки — это неправильные пользовательские агенты, каталоги, пропущенные запятые после User-agent и Disallow и многое другое. Иногда бывает трудно найти опечатки, но в некоторых случаях помогают утвердительные инструменты.
Более серьезная проблема связана с логическими ошибками. Например:
Пользовательский агент: *
Запретить: / temp /
Пользовательский агент: Googlebot
Запретить: / images /
Запретить: / temp /
Disallow: / cgi-bin /
Приведенный выше пример взят из файла robots.txt, который позволяет всем поисковым системам получать доступ ко всему на сайте, кроме каталога / temp. Пока все хорошо, но позже есть еще одна запись, которая устанавливает более строгие условия для робота Googlebot. Когда робот Googlebot начнет читать файл robots.txt, он увидит, что все пользовательские агенты (включая робота Googlebot) имеют доступ ко всем папкам, кроме / temp /. Этого достаточно для робота Googlebot, и он не будет читать временный файл и индексировать все, кроме / temp /, включая / photos / и / cgi-bin /, которые, как вы сказали, не трогайте. Как видите, структура файла robots.txt проста, но можно легко допустить серьезные ошибки.
Инструменты для создания и проверки файла robots.txt
Что такое ROBOTS.TXT
Учитывая простой синтаксис файла robots.txt, вы всегда можете прочитать его, чтобы убедиться, что все в порядке, но гораздо проще использовать такой валидатор: http://tool.motoricerca.info/robots- checker .phtml. Эти инструменты сообщают о типичных ошибках, таких как пропущенные строки или столбцы, которые, если вы их не обнаружите, поставят под угрозу ваши усилия. Например, если вы написали:
Агент пользователя: *
Запретить: / temp /
это неправильно, потому что между «пользователем» и «агентом» нет косой черты, а синтаксис неверен.
В этих случаях, когда у вас есть сложный файл robots.txt — т.е. давая разные инструкции различным пользовательским агентам или имея длинный список каталогов и подкаталогов, которые вы хотите исключить, запись файла вручную может быть настоящей проблемой. Но не волнуйтесь — есть инструменты, которые сгенерируют файл за вас. Более того, есть визуальные инструменты, которые позволяют вам выбирать, какие файлы и папки вы хотите исключить.Что такое ROBOTS.TXT

Читайте так же:
Not found

Нам доверяют

Интернет магазин