У робота имеется база данных, где он хранит там список адресов, которые регулярно обходит и индексирует, соответствующие этим адресам документы. Когда при анализе веб-страницы робот находит новую ссылку, он заносит ее в базу данных. Поэтому любой ресурс, на которых они есть , он посетит, а значит, и проиндексирует. По такому принципу работают, как поисковый робот Яндекса, так и поисковый робот Google.
Роботы поисковых систем, такие как краулер, паук, спайдер — это не монстры из фантастических игр, а программы, которые входят в её комплект. И их работа состоит в том, чтобы они обходили страницы интернета с целью занесения ключевых слов в базу поисковика.
Просканировав содержимое документа, он передает его на сервер поисковой системы, к которой он приписан и двигается дальше на проверку следующих документов. Стоит сказать, что он далеко не всё видит, т.е. не все элементы сайта он может прочитать, например, текст на картинках. Есть сервисы, которые, например у гугл, которые так и называются -страница глазами поискового робота или сайт глазами поискового робота.
Разработчики ограничивают уровень погружения «пауков» внутрь интернет-ресурса. А по сему, слишком большие ресурсы могут быть полностью не проиндексированными. Алгоритмы машины устанавливают частоту визитов, порядок обхода сайтов.
Обычно переходы реализовываются по ссылкам, которые расположены на первой и других страницах ресурса. Некоторые поисковые машины разрешают владельцу сайта самостоятельно поставить свой ресурс в очередь для индексирования.
Это ускоряет индексирование ресурса, а в случаях, когда внешних ссылок на сайте «кот наплакал», вообще является единственной возможностью оповестить всех о его существовании.
Ограничить индексацию ресурса возможно с помощью файла robots.txt. Как мы уже знаем, «паук» это программа. Программа она и в Африке программа. Она входит в поисковую систему, и представляет её составную часть. Работа программы основана на алгоритме поисковой системы.
Но еще «паук» подчиняется и администратору веб — ресурса. Чтобы заставить «паука» работать по вашим правилам, администратор ресурса должен грамотно составить директивы в robots.txt.
Файл этот и будет, является директивой для «паука», какие документы не нужно вписывать в базу данных. Однако войти на эти страницы он все же сможет, если они имеют входящие ссылки. Он только не заносит их в индекс. Но если вы не хотите, чтобы ваши личные тайны не обнародовали, лучше перестраховаться и установить пароль на свой документ.
Робот находит вашу страницу в интернете по ключевому слову в названии страницы, согласно заявленному запросу. Хороший вариант, когда ключ стоит первым в названии документа.
Далее игнорируя красивые картинки и мелькающие баннеры, «паук» спускается на первый абзац в поисках ключевого слова. Первое ключевое слово в первом абзаце, это большая удача для него и он с удовольствием записывает этот ключ в базу данных. Далее, чтобы робот поверил, что он попал на нужный сайт, надо «скормить» ему еще парочку ключевых слов.
Чтобы робот взглянул и занес в индекс какую-нибудь внутреннюю страницу, надо поставить ссылку с анкором, который бы соответствовал её тематике. Так он поверит, что тема сайта соответствует запросу. Чтобы вернуть «паука» на страницу для продолжения чтения поставьте в конце внутренней страницы ссылку «на главную ». А еще лучше написать в анкоре «название страницы».
Таким образом, он проиндексирует внутренние страницы сайта, а поскольку все они ссылаются на главную, она получит большой вес. Для продвижения главной странице это важный фактор.
Есть мнение, что достаточно расположить несколько ключей в первом абзаце и в последнем. Но тогда робот, не обнаружив в середине текста ключевых слов, может попросту уйти с документа. В данном случае вам решать, что лучше. Ну, и конечно не нужно чрезмерно «фаршировать» документ ключами. Все должно быть в разумных пределах.
Удачи Вам в оптимизации контента!