Robots txt

29.04.2012

Здравствуйте, уважаемые читатели блога https://delajblog.ru/!

Основное назначение robots txt — это управление поисковыми роботами. Для того, чтобы пользователь нашел ваш сайт в интернете, прежде всего он (веб-страница) должен быть проиндексирован. Т.е. поисковый робот должен посетить веб-страницу, проанализировать и скачать её к себе в базу. И только после этого данная веб-страница (документ), может появиться в поисковой выдаче.

Но дело в том, что на сайте может находиться множество документов, которые бессмысленно загружают поисковый робот: дубликаты документов, всякая служебная информация, например, для чего индексировать результаты поиска по сайту? А дубли контента?

Вот в этом файле robots.txt можно указать параметры индексирования – какие документы можно индексировать, а какие – исключить. Этот файл создаётся в обычном текстовом редакторе (обычный тестовый файл с расширением txt), и затем закачивается на сервер в корневую директорию. Обязательное усовие, что название файла должно быть в нижнем регистре, т.е. такой ROBOTS.TXT – НЕПРАВИЛЬНЫЙ! Его можно посмотреть на любом сайте (если он есть). Для этого после домена дописать /robots.txt/ Например, чтобы посмотреть robots txt данного блога нужно набрать в адресной строке https://delajblog.ru/robots.txt

Правила написания

# начало комментария, все, что после этого знака роботом игнорируется.

Сначала определяется, для каких роботов поисковых систем пишется директива.

User-agent: *

#User-agent – это поисковый робот, звёздочка означает, что для любых роботов поисковых систем. Если создаём robots.txt для конкретной поисковой системы, то здесь её и прописываем.

User-agent: Yandex

#Здесь указания конкретно поисковому роботу Yandex.. Каждый поисковый робот каждой системы имеет своё название, так у Гугл это Googlebot. Стоит сказать, что Яндекс имеет множество роботов: индексирующего (YandexBot), индексатор картинок (YandexImages) и т.д. А директива «Yandex» относиться ко всем роботам системы Яндекс.

Разрешающие и запрещающие директивы.

Allow

#Разрешающая директива.

Disallow

#Запрещающая директива.

Пример:

User-agent: *

Disallow:

#Разрешает всем роботам всех поисковых систем индексировать содержание всего сайта. После директивы и двоеточия ничего нет – пустая директива, т.е. запрета ни на что нет.

User-agent: *

Disallow: /

# Таким слэшем блокируется допуск ко всему сайту.

Пример блокировки отдельных файлов и директорий.

User-agent: *

Disallow: /wp-admin/

#Здесь запрет индексации только директории wp-admin. Т.е. всех файлов находящихся в директории wp-admin, но если имеется /wp-admin, то он будет индексироваться.

User-agent: *

Disallow: /wp-admin

#Здесь запрет индексации всего что начинается с имени wp-admin, т.е. запрет содержания директории wp-admin и файла /wp-admin (если он есть).

User-agent: *

Disallow: //wp-login.php

#Здесь запрет индексации файла /wp-login.php. При условии, что он находится в корневой директории.

Ну а теперь, как правильный вариант файла robots txt для wordpress. (Примечание: у разных блогеров имеются свои мнения, как этот хитрый файл составлять. Кому хочется вникнут, как мне кажется, можно подсмотреть у самых крутых SEOшников). Посмотрев robots txt у различных сайтов, обнаружил, что непонятно зачем пишут 2 варианта: один для всех поисковиков и один для Яндекса. Выяснилось, что Яндекс просто любит, когда к нему обращаются персонально. Идеального файла быть не может, у всех они разные .

У меня пока вот такой вариант.

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: /wp-content/uploads

Disallow: /wp-content/themes

Disallow: /tag/

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

Disallow: /*?*

Disallow: /?feed=

Disallow: /?s=

Sitemap: https://delajblog.ru/sitemap.xml.gz

Sitemap: https://delajblog.ru/sitemap.xml

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /xmlrpc.php

Disallow: /wp-content/uploads

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /tag/

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

Disallow: /?feed=

Disallow: /*?*

Disallow: /?s=

Т.о. с помощью файла robots txt мы, убирая лишние веб-страницы из индексации, упрощаем жизнь поисковому роботу, тем самым влияем на продвижение сайта.

Как создать свой блог

Robots txt

Добавить комментарий Отменить ответ

Подпишись на RSS

Рубрики

Последние записи

Архив

Просто хорошая музыка