Удаление replytocom из результатов поиска Google

Содержание

1 Удаление в инструменте для для веб-мастеров
2 Делаем редирект в .htaccess
- 2.1 Немного об индексации страниц запрещенных в robots.txt
- 2.2 Похожие статьи:

Доброго времени суток, уважаемые читатели delajblog.ru!

В статье о том. как WordPress генерирует дубли страниц (документов) в древовидных комментариях я рассказал в прошлой статье. Полазив по популярным сайтам обнаружил, что такая проблема есть у многих блогов. Но у многих её и нет — значит решили эту проблемку. Как оказалось существует несколько способов её решения. Итак задача — исключить дубли документов из индекса Гугл.

Удаление в инструменте для для веб-мастеров

Поисковая система Google предоставляет такую возможность. Для этого заходим в инструменты для вебмастеров своего блога. Последовательно нажимаем Конфигурация, Параметры URL, настройка параметров URL.

Далее попадаем на страницу, где видим приснопамятный параметр replytocom (которых у меня.как видно, накопилось 231 страница).

Нажимаем Добавление параметра.

Добавление параметра

Видим, что параметр replytocom обрабатывается на усмотрение робота (вот он гад и обработал — засунул в индекс, что не нужно!). Нажимаем на ссылку Изменить.

параметры

И выставляем параметры, как указано на картинке, нажимаем кнопку Сохранить.

Делаем редирект в .htaccess

В корневой папки сайта имеется файл .htaccess, который управляет поведением сервера, на котором находится сайт. Если такого файла нет, то его создают в обыкновенном блокноте, только внимательно смотрим за его расширением.

Вставляем в этот файл следующие строки:

RewriteCond %{QUERY_STRING} replytocom=
RewriteRule ^(.*)$ /$1? [R=301,L]

Теперь будет редирект 301 на оригинальную статью. содержащую древовидные комментарии. Файл .htaccess заливаем в корневую папку сайта на сервере.

Немного об индексации страниц запрещенных в robots.txt

Файл robots.txt всегда находится в корне сайта (блога) на сервере и предназначен для управления роботами поисковых систем. Кстати сказать, что он необязателен для исполнения поисковыми роботами, и некоторые поисковики не всё делают, что в нем написано. Этот файл имеет стандарт написания и состоит из различных директив, например,

Disallow: /?s?

Такая директива запрещает роботу (боту) сканировать и индексировать все веб-страницы содержащие в своём адресе символ «s». Но на самом деле дело обстоит несколько иначе. Так, страница запрещенная в файле роботс, МОЖЕТ попасть в поисковый индекс, если на неё есть ссылка с другой страницы. Особенно четко это видно у гугла. И как, советует сам гугл, документы, которые не будут индексироваться, должны содержать мета-тег:

<meta name=“robots” content=“noindex,nofollow”>

Таким образом, думать, что для запрета доступа к документу и не попадания в индекс, её достаточно закрыть в роботс, означает думать не правильно. Кстати сказать, совсем недавно я думал именно так.

Стоит обратить внимание на такую ситуацию: имеется дубль кого-либо документа, в котором стоит метатег с “noindex,nofollow” и сам дубль закрыт от индексации в роботс. По идее, такой документ в индекс не попадёт, ведь мы его дважды закрыли в роботс и метатег запрета поставили. Но, он может попасть в индекс по той причине, что поисковый бот придёт, посмотрит в роботс, узнает, что доступ закрыт и уйдет, тем самым он метатег запрета и читать не будет. Получается, что нужно убрать запрет в роботс и тогда бот прочитает метатег запрета и не будет индексировать страницу.

С уважением, Александр

Комментарии 6 комментариев

Tatiana

10.07.2013 в 4:30 пп

Здравтсвуйте! Спасибо за такую понятную статью) У меня параметра replytocom в webmasters не было и я его добавила сама, хотя в индексе они были. Дальше сделала все как вы советовали. Надеюсь, что правильно.

Ответить
Александр

10.07.2013 в 6:27 пп

Удачи!

Ответить
prostolinux

14.02.2014 в 4:55 пп

А вот такой url тоже по сути дубль? https://delajblog.ru/udalenie-replytocom-iz-rezultatov-poiska-google#comment-1559

Ответить
- Александр
  
  15.02.2014 в 1:06 дп
  
  Да
  
  Ответить
  - Антон
    
    01.07.2014 в 11:18 пп
    
    Не вводите людей в заблуждение: https://delajblog.ru/udalenie-replytocom-iz-rezultatov-poiska-google#comment-1559 — такой адрес это не дубль. Тут к ссылке добавлен якорь и это не считается отдельной страницей
    
    Ответить
    - Александр
      
      04.07.2014 в 11:57 дп
      
      Не буду спорить с Вами. Ваше мнение — приветствуется. Никого ни в чем убеждать не собираюсь. Если по разным URL адресам открывается одна страница, то это — дубль (ИМХО).
      
      Ответить