Содержание
Доброго времени суток, уважаемые читатели delajblog.ru!
В статье о том. как WordPress генерирует дубли страниц (документов) в древовидных комментариях я рассказал в прошлой статье. Полазив по популярным сайтам обнаружил, что такая проблема есть у многих блогов. Но у многих её и нет — значит решили эту проблемку. Как оказалось существует несколько способов её решения. Итак задача — исключить дубли документов из индекса Гугл.
Удаление в инструменте для для веб-мастеров
Поисковая система Google предоставляет такую возможность. Для этого заходим в
Далее попадаем на страницу, где видим приснопамятный параметр rep
Нажимаем Добавление параметра.
Видим, что параметр replytocom обрабатывается на усмотрение робота (вот он гад и обработал — засунул в индекс, что не нужно!). Нажимаем на ссылку Изменить.
И выставляем параметры, как указано на картинке, нажимаем кнопку Сохранить.
Делаем редирект в .htaccess
В корневой папки сайта имеется файл .htaccess, который управляет поведением сервера, на котором находится сайт. Если такого файла нет, то его создают в обыкновенном блокноте, только внимательно смотрим за его расширением.
Вставляем в этот файл следующие строки:
RewriteCond %{QUERY_STRING} replytocom= RewriteRule ^(.*)$ /$1? [R=301,L]
Теперь будет редирект 301 на оригинальную статью. содержащую древовидные комментарии. Файл .htaccess заливаем в корневую папку сайта на сервере.
Немного об индексации страниц запрещенных в robots.txt
Файл robots.txt всегда находится в корне сайта (блога) на сервере и предназначен для управления роботами поисковых систем. Кстати сказать, что он необязателен для исполнения поисковыми роботами, и некоторые поисковики не всё делают, что в нем написано. Этот файл имеет стандарт написания и состоит из различных директив, например,
Disallow: /?s?
Такая директива запрещает роботу (боту) сканировать и индексировать все веб-страницы содержащие в своём адресе символ «s». Но на самом деле дело обстоит несколько иначе. Так, страница запрещенная в файле роботс, МОЖЕТ попасть в поисковый индекс, если на неё есть ссылка с другой страницы. Особенно четко это видно у гугла. И как, советует сам гугл, документы, которые не будут индексироваться, должны содержать мета-тег:
<meta name=“robots” content=“noindex,nofollow”>
Таким образом, думать, что для запрета доступа к документу и не попадания в индекс, её достаточно закрыть в роботс, означает думать не правильно. Кстати сказать, совсем недавно я думал именно так.
Стоит обратить внимание на такую ситуацию: имеется дубль кого-либо документа, в котором стоит метатег с “noindex,nofollow” и сам дубль закрыт от индексации в роботс. По идее, такой документ в индекс не попадёт, ведь мы его дважды закрыли в роботс и метатег запрета поставили. Но, он может попасть в индекс по той причине, что поисковый бот придёт, посмотрит в роботс, узнает, что доступ закрыт и уйдет, тем самым он метатег запрета и читать не будет. Получается, что нужно убрать запрет в роботс и тогда бот прочитает метатег запрета и не будет индексировать страницу.
С уважением, Александр
Здравтсвуйте! Спасибо за такую понятную статью) У меня параметра replytocom в webmasters не было и я его добавила сама, хотя в индексе они были. Дальше сделала все как вы советовали. Надеюсь, что правильно.
Удачи!
А вот такой url тоже по сути дубль? http://delajblog.ru/udalenie-replytocom-iz-rezultatov-poiska-google#comment-1559
Да
Не вводите людей в заблуждение: http://delajblog.ru/udalenie-replytocom-iz-rezultatov-poiska-google#comment-1559 — такой адрес это не дубль. Тут к ссылке добавлен якорь и это не считается отдельной страницей
Не буду спорить с Вами. Ваше мнение — приветствуется. Никого ни в чем убеждать не собираюсь. Если по разным URL адресам открывается одна страница, то это — дубль (ИМХО).