Что такое Robots.txt?

Robots.txtRobots.txt – это текстовый файл, создаваемый вебмастерами с инструкциями для поисковых машин интернета,  каким образом обследовать и индексировать  сайт.

Файл Robots.txt находится в корневой директории сайта.

Этот файл является практически обязательным для любого сайта, т.к. с его помощью можно влиять на индексацию веб документов. Проще говоря, с его помощью можно сказать поисковикам, чтобы они не вносили в свой индекс нежелательные веб страницы, например, результаты поиска на сайте, служебные документы и т.д.

Его легко можно посмотреть на любом сайте (если  он там есть. На более менее серьезном веб ресурсе он будет обязательно).

Для просмотра добавьте к домену выражение /robots.txt

Например,   delajblog.ru/robots.txt

https://delajblog.ru/robots.txt

Формат файла следующий:

Запись начинается с одного или нескольких User-agent, которая определяет конкретный робот поисковой системы. Затем следуют инструкции Allow (разрешить) или Disallow (запретить). Возможно разрешение и директивой Disallow без слеша.  Каждая запись пишется на отдельной строке. Звёздочка (*) означает любой робот.

Пример файла Robots.txt

User-agent: webcrawler          <-  робот webcrawler  

 User-agent: Googlebot          <- робот  Googlebot

 Allow:    /tmp/ok.html           <- разрешить смотреть папку /tmp/ok.html             

 Disallow: /assort                 <-  запретить смотреть папку /assort                      

 Disallow: /user/fid                 <- запретить смотреть папку /user/fid          

Ещё несколько примеров:

Блокировка от просмотра всего сайта всеми поисковыми роботами

User-agent: *

Disallow: /

Разрешить всем  индексировать весь сайт

User-agent: *

Disallow:

Блокировка отдельного робота

User-agent: Googlebot

Disallow: /

Блокировка отдельного робота от просмотра конкретной веб-страницы

User-agent: Googlebot

Disallow: //no-google/example-page.html

Блокировать просмотр отдельных файлов сайта

User-agent: *

Disallow: /host

Disallow: / wp-activate

Disallow: /private/

Кроме этого, для ограничения действий поисковиков можно использовать мета – тег “Robots”, который запрещает роботу индексировать веб-страницу и просматривать ссылки на странице.

Примеры.

<META NAME=»ROBOTS» CONTENT=»NOINDEX»>

Запрет индексации веб-страницы.

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Запрет индексации и просмотра ссылок на веб-странице.

Такой мета- тег записывается на каждой веб-странице к которой необходимо ограничить доступ.

Добавить комментарий

Ваш e-mail не будет опубликован.