Здравствуйте, уважаемые читатели блога https://delajblog.ru/!
Основное назначение robots txt — это управление поисковыми роботами. Для того, чтобы пользователь нашел ваш сайт в интернете, прежде всего он (веб-страница) должен быть проиндексирован. Т.е. поисковый робот должен посетить веб-страницу, проанализировать и скачать её к себе в базу. И только после этого данная веб-страница (документ), может появиться в поисковой выдаче.
Но дело в том, что на сайте может находиться множество документов, которые бессмысленно загружают поисковый робот: дубликаты документов, всякая служебная информация, например, для чего индексировать результаты поиска по сайту? А дубли контента?
Вот в этом файле robots.txt можно указать параметры индексирования – какие документы можно индексировать, а какие – исключить. Этот файл создаётся в обычном текстовом редакторе (обычный тестовый файл с расширением txt), и затем закачивается на сервер в корневую директорию. Обязательное усовие, что название файла должно быть в нижнем регистре, т.е. такой ROBOTS.TXT – НЕПРАВИЛЬНЫЙ! Его можно посмотреть на любом сайте (если он есть). Для этого после домена дописать /robots.txt/ Например, чтобы посмотреть robots txt данного блога нужно набрать в адресной строке https://delajblog.ru/robots.txt
Правила написания
# начало комментария, все, что после этого знака роботом игнорируется.
Сначала определяется, для каких роботов поисковых систем пишется директива.
User-agent: *
#User-agent – это поисковый робот, звёздочка означает, что для любых роботов поисковых систем. Если создаём robots.txt для конкретной поисковой системы, то здесь её и прописываем.
User-agent: Yandex
#Здесь указания конкретно поисковому роботу Yandex.. Каждый поисковый робот каждой системы имеет своё название, так у Гугл это Googlebot. Стоит сказать, что Яндекс имеет множество роботов: индексирующего (YandexBot), индексатор картинок (YandexImages) и т.д. А директива «Yandex» относиться ко всем роботам системы Яндекс.
Разрешающие и запрещающие директивы.
Allow
#Разрешающая директива.
Disallow
#Запрещающая директива.
Пример:
User-agent: *
Disallow:
#Разрешает всем роботам всех поисковых систем индексировать содержание всего сайта. После директивы и двоеточия ничего нет – пустая директива, т.е. запрета ни на что нет.
User-agent: *
Disallow: /
# Таким слэшем блокируется допуск ко всему сайту.
Пример блокировки отдельных файлов и директорий.
User-agent: *
Disallow: /wp-admin/
#Здесь запрет индексации только директории wp-admin. Т.е. всех файлов находящихся в директории wp-admin, но если имеется /wp-admin, то он будет индексироваться.
User-agent: *
Disallow: /wp-admin
#Здесь запрет индексации всего что начинается с имени wp-admin, т.е. запрет содержания директории wp-admin и файла /wp-admin (если он есть).
User-agent: *
Disallow: //wp-login.php
#Здесь запрет индексации файла /wp-login.php. При условии, что он находится в корневой директории.
Ну а теперь, как правильный вариант файла robots txt для wordpress. (Примечание: у разных блогеров имеются свои мнения, как этот хитрый файл составлять. Кому хочется вникнут, как мне кажется, можно подсмотреть у самых крутых SEOшников). Посмотрев robots txt у различных сайтов, обнаружил, что непонятно зачем пишут 2 варианта: один для всех поисковиков и один для Яндекса. Выяснилось, что Яндекс просто любит, когда к нему обращаются персонально. Идеального файла быть не может, у всех они разные .
У меня пока вот такой вариант.
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Sitemap: https://delajblog.ru/sitemap.xml.gz
Sitemap: https://delajblog.ru/sitemap.xml
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Т.о. с помощью файла robots txt мы, убирая лишние веб-страницы из индексации, упрощаем жизнь поисковому роботу, тем самым влияем на продвижение сайта.
Похожие статьи: