Содержание
Robots.txt – это текстовый файл, создаваемый вебмастерами с инструкциями для поисковых машин интернета, каким образом обследовать и индексировать сайт.
Файл Robots.txt находится в корневой директории сайта.
Этот файл является практически обязательным для любого сайта, т.к. с его помощью можно влиять на индексацию веб документов. Проще говоря, с его помощью можно сказать поисковикам, чтобы они не вносили в свой индекс нежелательные веб страницы, например, результаты поиска на сайте, служебные документы и т.д.
Его легко можно посмотреть на любом сайте (если он там есть. На более менее серьезном веб ресурсе он будет обязательно).
Для просмотра добавьте к домену выражение /robots.txt
Например, delajblog.ru/robots.txt
Формат файла следующий:
Запись начинается с одного или нескольких User-agent, которая определяет конкретный робот поисковой системы. Затем следуют инструкции Allow (разрешить) или Disallow (запретить). Возможно разрешение и директивой Disallow без слеша. Каждая запись пишется на отдельной строке. Звёздочка (*) означает любой робот.
Пример файла Robots.txt
User-agent: webcrawler <- робот webcrawler
User-agent: Googlebot <- робот Googlebot
Allow: /tmp/ok.html <- разрешить смотреть папку /tmp/ok.html
Disallow: /assort <- запретить смотреть папку /assort
Disallow: /user/fid <- запретить смотреть папку /user/fid
Ещё несколько примеров:
Блокировка от просмотра всего сайта всеми поисковыми роботами
User-agent: *
Disallow: /
Разрешить всем индексировать весь сайт
User-agent: *
Disallow:
Блокировка отдельного робота
User-agent: Googlebot
Disallow: /
Блокировка отдельного робота от просмотра конкретной веб-страницы
User-agent: Googlebot
Disallow: //no-google/example-page.html
Блокировать просмотр отдельных файлов сайта
User-agent: *
Disallow: /host
Disallow: / wp-activate
Disallow: /private/
Кроме этого, для ограничения действий поисковиков можно использовать мета – тег “Robots”, который запрещает роботу индексировать веб-страницу и просматривать ссылки на странице.
Примеры.
<META NAME=»ROBOTS» CONTENT=»NOINDEX»>
Запрет индексации веб-страницы.
META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»
Запрет индексации и просмотра ссылок на веб-странице.
Такой мета- тег записывается на каждой веб-странице к которой необходимо ограничить доступ.