Logo

Robots txt

Здравствуйте, уважаемые читатели блога http://delajblog.ru/!

Robots txt

Основное назначение robots txt — это  управление поисковыми роботами. Для того, чтобы пользователь нашел ваш сайт в интернете, прежде всего он (веб-страница) должен быть проиндексирован. Т.е. поисковый робот должен посетить веб-страницу, проанализировать и скачать её к себе в базу. И только после этого данная веб-страница (документ), может появиться в поисковой выдаче.

Но дело в том, что на сайте может находиться множество документов, которые бессмысленно загружают поисковый робот: дубликаты документов, всякая служебная информация, например, для чего индексировать  результаты поиска по сайту? А дубли контента?

Вот в этом файле robots.txt можно указать параметры индексирования – какие документы можно индексировать, а какие – исключить. Этот файл создаётся в обычном текстовом редакторе (обычный тестовый файл с расширением txt), и затем закачивается на сервер в корневую директорию. Обязательное усовие, что название файла должно быть в нижнем регистре, т.е. такой ROBOTS.TXT – НЕПРАВИЛЬНЫЙ! Его можно посмотреть на любом сайте (если он есть). Для этого после домена дописать  /robots.txt/ Например, чтобы посмотреть robots txt данного блога нужно набрать в адресной строке http://delajblog.ru/robots.txt

Правила написания

# начало комментария, все, что после этого знака роботом игнорируется.

Сначала определяется, для каких роботов поисковых систем пишется директива.

User-agent: *

#User-agent – это поисковый робот, звёздочка означает, что для любых роботов поисковых систем. Если создаём robots.txt для конкретной поисковой системы, то здесь её и прописываем.

User-agent: Yandex

#Здесь указания конкретно поисковому роботу Yandex.. Каждый поисковый робот каждой системы имеет своё название, так у Гугл это Googlebot. Стоит сказать, что Яндекс имеет множество роботов: индексирующего (YandexBot), индексатор картинок (YandexImages) и т.д. А директива «Yandex» относиться ко всем роботам системы Яндекс.

Разрешающие и запрещающие директивы.

Allow

#Разрешающая директива.

Disallow

#Запрещающая директива.

Пример:

User-agent: *

Disallow:

#Разрешает всем роботам всех поисковых систем индексировать содержание всего сайта. После директивы и двоеточия ничего нет – пустая директива, т.е. запрета ни на что нет.

User-agent: *

Disallow: /

# Таким слэшем блокируется допуск ко всему сайту.

Пример блокировки отдельных файлов и директорий.

User-agent: *

Disallow: /wp-admin/

#Здесь запрет индексации только директории wp-admin. Т.е. всех файлов находящихся в директории wp-admin, но если имеется /wp-admin, то он будет индексироваться.

User-agent: *

Disallow: /wp-admin

#Здесь запрет индексации всего что начинается с имени wp-admin, т.е. запрет содержания  директории wp-admin  и файла /wp-admin (если он есть).

User-agent: *

Disallow: //wp-login.php

#Здесь запрет индексации файла /wp-login.php. При условии, что он находится в корневой директории.

Ну а теперь, как правильный вариант файла robots txt для wordpress. (Примечание: у разных блогеров имеются свои мнения, как этот хитрый файл составлять. Кому хочется вникнут, как мне кажется, можно подсмотреть у самых крутых SEOшников). Посмотрев robots txt у различных сайтов, обнаружил, что непонятно зачем пишут 2 варианта: один для всех поисковиков и один для Яндекса. Выяснилось, что Яндекс просто любит, когда к нему обращаются персонально. Идеального файла быть не может, у всех они разные .

У меня пока вот такой вариант.

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: /wp-content/uploads

Disallow: /wp-content/themes

Disallow: /tag/

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

Disallow: /*?*

Disallow: /?feed=

Disallow: /?s=

Sitemap: http://delajblog.ru/sitemap.xml.gz

Sitemap: http://delajblog.ru/sitemap.xml

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /xmlrpc.php

Disallow: /wp-content/uploads

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /tag/

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

Disallow: /?feed=

Disallow: /*?*

Disallow: /?s=

Т.о. с помощью файла robots txt мы,  убирая лишние веб-страницы из индексации, упрощаем жизнь поисковому роботу,  тем самым влияем на продвижение сайта.

 

 

Похожие записи

2 комментария

  1. Здравстуйте, подскажите пожалуйста а что именно нужно закрыть в файле robots.txt если гугл выдал мне вот это :
    Google обнаружил значительное увеличение количества Url-адресов, которые возвращает 404 (Страница Не Найдена) ошибка. Расследование этих ошибок и их исправления, где это уместно гарантирует, что Google может успешно сканировать ваш сайт&’; s страниц.

    Как мне вообще просканировать сайт на ошибочные страницы? Я новичок, прошу подробной помощи. Спасибо

    (Сайт на вордпресс http://zermir.ru )

    Ответить
  2. Я ищу информацию о запрете индексации страниц
    Disallow: */page/*-у Вас вот так,но что значат эти звёздочки?

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован.