Logo

Как работают поисковые машины интернета

Поисковые машины интернета имеют четыре функции – это crawling ( ползание), индексирование, расчёт релевантности, предоставление результатов пользователю.

Ползание (crawling)

Автоматизированный робот или сканер («паук») по заданному ему алгоритму обходит всю сеть интернет, при этом паук посещает все веб-страницы всемирной сети. В своём поиске роботы используют гиперссылки на веб-страницах по которым и осуществляют переходы.

Через ссылки, роботы поисковых  систем   могут  достигать многих миллиардов взаимосвязанных документов интернета. Важно понять, что «паук» посетит только ту страницу, на которую ведёт гиперссылка, и если таковой нет, то такая страница невидима для «паука». После посещения страницы «паук» «вытаскивает» со страницы часть информации (сколько и объём информации зависит от алгоритма конкретной машины. Обратите внимание, что робот собирает только часть посещенной им вэб-страницы) и записывает всё на гигантские жесткие диски, которые находятся в специальных датацентрах разбросанных  по всему миру. Т.о. первое, что сделала поисковая машина – это запустила «паука», который обощёл  весь интернет и записал куски вэб-страниц на жесткий диск в датацетрах.

Колоссальный объем информации (миллиарды веб-страниц!) находящейся в датацентрах обрабатывается мощнейшими компьютерами, которые обеспечивают выдачу пользователю испрашиваемой им информации.

Индексирование

На компьютерах дейтацентров записанная информация индексируется, т.е. каждая вэб-страница по заданному алгоритму обрабатывается и каждой странице присваивается индекс, т.е. «важность», или значимость этой станицы для пользователя. Теперь, когда пользователь в поисковике набирает запрос, поисковая машина поищет этот запрос уже в своих индексах.

Релевантность

Когда пользователь набирает запрос в поисковой системе, он заставляет её сделать две вещи: во-первых, отдать пользователю адекватный ответ (релевантность, проще говоря – это максимальное соответствие между запросом пользователя и ответом поисковой машины) и второе – ранжировать результаты выдачи (важность, значение), т.е. чем релевантнее ответ, тем выше он находится в поисковой выдаче.

Для поисковой машины релевантность – не просто выдача пользователю вэб-страницы, на которой находятся искомые им слова (ключевые слова или фразы, которые пользователь вбил в поиске), но выдача полезной ему информации.  В настоящее время на релевантность влияет огромное число факторов, т.е. на поисковую выдачу результатов пользователю влияет множество факторов, которые определяются алгоритмами работы поисковых  машин.

В настоящее время, одним из главных факторов, влияющих на ранжирование (и соответственно, выдачу в более высоких позициях)  является популярность сайта или отдельной веб-страницы. Т.е. поисковая машина определяет, чем популярнее документ, тем  он ценнее и  соответственно происходит выдача на верхние позиции в поисковой выдачи. Например, чем популярнее данный блог (чем больше ссылок будет направлено на этот блог с других сайтов), тем более высокое место он займёт в поисковой выдачи.

Продолжение в следующей статье.

Как робот посещает сайты

Получать обновления с блога:

Один комментарий

  1. bill:

    спасибо, действительно тонкости работы поисковиков надо знать)

Добавить комментарий для bill Отменить ответ

Ваш e-mail не будет опубликован.


6 × = пятьдесят четыре