







|
| Индексирование информации в сети
Перед тем как поисковые системы выдадут вам информацию по вашему запросу, они должны сначала найти эту информацию. Разумеется, они не сканируют весь интернет при вводе каждого запроса. Это было бы слишком расточительно и очень долго.
Вместо этого поисковики создают некую базу данных по всем страницам, содержащимся в сети, и производят поиск в этой базе данных. Разумеется, это намного быстрее, чем множество раз проводить поиск по всем сайтам. Как же поисковики заполняют эту свою базу данных (обычно, базу данных называют индексом поисковой системы, а включение определенного сайта в этот индекс называют индексированием сайта).
Каждый поисковик имеет специальную программу - робота, которая и индексирует сайты. Эта программа называется пауком (spider), а процесс индексирования - ползание паука(spider crawling). И, действительно, если подумать, то процесс напоминает ползание паука по различным сайтам и собирание информации с них (индексация).
|
Поисковых пауков часто называют - ботами. Каждый поисковый бот имеет свое название, чтобы можно было отличать ботов именно данной поисковой системы. Это имя отображается обычно в поле User-Agent запроса к серверу. Например, бот Google имеет имя - Googlebot, а Яндекса - Yandex. Эти названия веб мастер может использовать, например, в файле robots.txt (Я расскажу об этом файле в другой статье), чтобы запретить определенному поисковику индексировать некоторые страницы.
Некоторые, веб программисты, создают различные страницы для различных поисковых ботов. Например, при заходе бота от Yandex на страницу, выдается одна страница, а для бота Google - другая. Еще хуже, если для поискового бота выдается одна страница, а для пользователя - другая. Это все нечестные приемы и если поисковики узнают об этом, то велика вероятность, что такой сайт совсем исключат из индекса поисковой системы. (Исключение из индекса называется БАН).
Как же пауки начинают свое путешествие по сети?
Обычно, поисковые боты начинают свое путешествие с самых популярных и посещаемых сайтов и страниц в сети. Они индексируют слова на данной странице, а затем следуют по всем ссылкам с текущей страницы и с других страниц того же сайта. Таким образом поисковый бот довольно быстро сканирует наиболее широко используемые ресурсы сети.
| | |
 |
|