<<
>>

Как реализуется поиск

Каждая полноценная поисковая машина располагает собственным штатом роботов, так называемых, пауков – их еще называют краулерами, спайдерами (spiders, crawlers) . Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая в их содержание.

После этого они сбрасывают их на серверы своих хозяев и идут к следующим страницам. Паук определяет, куда ему пойти, по гиперссылке. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова. Каждому из них присваиваются координаты, вычисляется его расположение относительно других слов на странице, и оно заносится в таблицу сервера вместе со ссылкой на тот адрес Интернета, где текст размещался в момент посещения пауком.

Сам по себе сервер поисковой машины представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Они разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.

Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.

При этом важно понять, как именно паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, он возвращается на нее, ну, например, через две недели. Если изменений там не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. Если и тогда он не увидит изменений, то следующее посещение произойдет еще позже.

Вот почему нередко бывает ситуация, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по ссылке, полученной в ответ на запрос, безрезультатна – ее может уже просто не быть на прежнем месте, но паук на нее давно не заходил, поэтому поисковая система об удалении страницы не знает. Весь комплекс процессов, описанных выше, называется индексацией.

<< | >>
Источник: Евгений Ющук. Блог: создать и раскрутить. 2009

Еще по теме Как реализуется поиск:

  1. Как происходит настройка на эти возможности? Как реализуются культурные практики понимания?
  2. 4.2.6. «Человек» как член оппозиции художественного мира в идиости- ле Игоря Северянина реализуется субъективным отношением поэта к ключе- вым понятиям жизнь - смерть, поэт — поэзия, мечта — быт
  3. § 2. Информация как объект поиска и средство познания
  4. ГлаваIV. Интернет-журналистика как технология поиска
  5. Скрытая ценность: когда реализуются варианты
  6.   человек как субъект философского творчества. поиск высшего теоретического начала
  7. Научная картина мира как регулятор эмпирического поиска в развитой науке
  8. Поиск с помощью языка операторов запросов поисковых систем как инструмент раскрутки блога
  9. Круглый стол ПОИСК ИНТЕГРАТИВНОЙ ФИЛОСОФИИ КАК АКСИОЛОГИЧЕСКИЙ ОТВЕТ НА ВЫЗОВЫ УТИЛИТАРНОГО ГЛОБАЛИЗМА
  10. Символизм Серебряного века как поиск новой философии Symbolism of the Silver Age as a search for new philosophy
  11. 2.1.1.З.1. Эмфаза, реализующаяся на материале двух слогов [20]
  12. 30. Понятие, характеристика реализ-ии норм права.
  13. »; «Коммуникация — это механизм, посредством которого реализуется власть и право»1.
  14. Предложения с местоимением что, не реализующим формоизменения
  15. Кто создаёт и реализует медицинское право?
  16. § 10. Основные категории, реализующие идею времени в русском языке
  17. Фирмы, реализующие стратегию немедленного реагирования на потребности рынка