Удаление replytocom из результатов поиска Google

Доброго времени суток, уважаемые читатели delajblog.ru!

В статье о том. как WordPress генерирует дубли страниц (документов) в древовидных комментариях я рассказал в прошлой статье. Полазив по популярным сайтам обнаружил, что такая проблема есть у многих блогов. Но у многих её и нет — значит решили эту проблемку. Как оказалось существует несколько способов её решения. Итак задача — исключить дубли документов из индекса Гугл.

Удаление в инструменте для для веб-мастеров

Поисковая система Google предоставляет такую возможность. Для этого заходим в инструменты для вебмастеров своего блога. Последовательно нажимаем Конфигурация, Параметры URL, настройка параметров URL.

Инструменты для веб мастеров

Далее попадаем на страницу, где видим приснопамятный параметр replytocom (которых у меня.как видно, накопилось 231 страница).

Нажимаем Добавление параметра.

Добавление параметра

Видим, что параметр replytocom обрабатывается на усмотрение робота (вот он гад и обработал — засунул в индекс, что не нужно!). Нажимаем на ссылку Изменить.

параметры

И выставляем параметры, как указано на картинке, нажимаем кнопку Сохранить.

Делаем редирект в .htaccess

В корневой папки сайта имеется файл .htaccess, который управляет поведением сервера, на котором находится сайт. Если такого файла нет, то его создают в обыкновенном блокноте, только внимательно смотрим за его расширением.

Вставляем в этот файл следующие строки:

RewriteCond %{QUERY_STRING} replytocom=
RewriteRule ^(.*)$ /$1? [R=301,L]

Теперь будет редирект 301 на оригинальную статью. содержащую древовидные комментарии. Файл .htaccess заливаем в корневую папку сайта на сервере.

 Немного об индексации страниц запрещенных в robots.txt

Файл robots.txt всегда находится в корне сайта (блога) на сервере и предназначен для управления роботами поисковых систем. Кстати сказать, что он необязателен для исполнения поисковыми роботами, и некоторые поисковики не всё делают, что в нем написано. Этот файл имеет стандарт написания и состоит из различных директив, например,

Disallow: /?s?

Такая директива запрещает роботу (боту) сканировать и индексировать все веб-страницы содержащие в своём адресе символ «s». Но на самом деле дело обстоит несколько иначе. Так, страница запрещенная в файле роботс, МОЖЕТ попасть в поисковый индекс, если на неё есть ссылка с другой страницы. Особенно четко это видно у гугла.  И как, советует сам гугл, документы, которые не будут индексироваться, должны содержать мета-тег:

<meta name=“robots” content=“noindex,nofollow”>

Таким образом, думать, что для запрета доступа к документу и не попадания  в индекс, её достаточно закрыть в роботс, означает думать не правильно. Кстати сказать, совсем недавно я думал именно так.

Стоит обратить внимание на такую ситуацию: имеется дубль кого-либо документа, в котором стоит метатег с “noindex,nofollow” и сам дубль закрыт от индексации в роботс. По идее, такой документ в индекс не попадёт, ведь мы его дважды закрыли в роботс и метатег запрета поставили. Но, он может попасть в индекс по той причине, что поисковый бот придёт, посмотрит в роботс, узнает, что доступ закрыт и уйдет, тем самым он метатег запрета и читать не будет. Получается, что нужно убрать запрет в роботс и тогда бот прочитает метатег запрета и не будет индексировать страницу.

С уважением, Александр

Комментарии 6 комментариев

Добавить комментарий

Ваш e-mail не будет опубликован.