Что такое поисковая машина

2019-02-16 06:27:10

В мировом интернете существует сотни поисковых машин – больших и маленьких, хороших и не очень.

У каждой поисковой машины есть группа создателей, годами (а то и десятилетиями) работающая над ее разработкой, развитием и совершенствованием.

Поэтому – казалось бы – зачем описывать в этой статье устройство поисковиков, владельцами которых мы не являемся, и отношение к которым мы не имеем?

Не проще ли спросить у самих разработчиков поисковой системы? Не проще, скажу я Вам.

Потому что они – молчат, как рыба об лед. Никто из разработчиков поисковиков не заинтересован в том, чтобы устройство поисковых машин и, тем более, конкретные алгоритмы поиска, сортировки и вывода информации стали доступны широкой общественности. Поисковая машина – это частная собственность, и ее владельцы вовсе не обязаны рассказывать всем подряд, как это работает.

Поисковые системы

По этому, Вам стоит понимать, что все, о чем пойдет речь в этой статье не сто процентное утверждение, а выводы, которые сформировались по ходу работы в сфере веб индустрии. Ведь мы имеем дело с поисковыми машинами достаточно много лет, хорошо представляем себе, как работают эти, на первый взгляд черные ящики.

И пусть Ваш собственный бизнес весьма далек от интернет-технологий, но иметь общее представление о поисковиках Вам просто необходимо.

Поисковые машины – это сложные программно-аппаратные комплексы, основной задачей которых является непрерывная прогулка среди веб-документов, анализ этих документов, оценка по степени важности, и самое важное, формирование списка вывода ответов, содержащие веб-адреса и краткую информацию об этих документах, в ответ на запросы посетителей.

Когда мы попадаем на сайт поисковой машины, для нас все выглядит все очень просто. Страница с полем для ввода запроса, и кнопка поиска позволяют в один миг найти тысячи, а то и сотни тысяч ответов и веб-документов в соответствии введенного запроса. И многие даже не задаются, откуда так быстро взялась вся эта информация.

Давайте разберемся.

Первое что приходит в голову, так это то, что невозможно за полсекунды-секунду обойти все доступные источники, а это не менее 32 000 000 страниц, построить таблицу, и вывести информацию на ваш экран.

Стоит признать, что следующий вывод справедлив.

Интернет-пространство содержит в себе миллионы веб-документов, расположенных на различных узлах, так называемых веб-серверах. Веб-сервер – это специальный, мощный компьютер, имеющий огромное количество дискового пространства (насчитывающее в себе сотни, а то и тысячи терабайт), и мощными многоядерными процессорами и высокоскоростной оперативной памяти, на которых располагаются веб-страницы сайтов.

Между каждым из веб-серверов и аппаратно-программным обеспечением должна быть установлена связь (установлен контент), для того чтобы поисковик обработал и правильно принял информацию расположенную на веб-ресурсах.

Поэтому, если поисковая машина будет обрабатывать наш с вами запрос в тот момент, когда он к ней поступил, у нее ничего не получится. Не говоря уже о том, что нет в мире таких вычислительных мощностей, которые позволяют обработать практически любой запрос, да еще и в режиме реального времени.

Поэтому вывод остается один. Поисковые машины заранее подготавливают информацию для мгновенного вывода на запросы.

Продвижение сайтов в поисковых системах

Так как они это делают?

Каждый поисковик имеет собственных роботов (иначе их называют пауками поисковых машин). Робот – это специальная программа, с помощью которой поисковая машина обходит ту часть пространства интернета, которую назначил ей мастер расписания поисковой машины для сбора информации в отведенное  для этого время.  Понятно, что таких роботов у каждого поисковика не один и не два, а несколько сотен и даже тысяч. Каждый из них бродит по определенному сегменту интернета, посещая отведенный ему веб-ресурс с определенной периодичностью, скачивая с них информацию. Этот процесс иначе называется первичная индексация.

Что из этого следует? Кто не успел, тот опоздал – вот что! То есть, если к моменту обхода роботом поисковика веб-ресурс будет недоступен, например, из за того, что наш с вами веб-сервер сломался, или нарушилось(упало) соединение сервера с интернетом, то робот толкнется в наши наглухо запертые ворота разок-другой, да и уйдет восвояси. До следующего раза, это следующий раз может быть у него намечен через неделю, а то и вовсе через месяц. Это приведет к тому, что поисковик решит, что наш с вами веб-ресурс больше не существует, и информация о нем исчезнет из выдачи этой поисковой машины. По этому всегда нужно следить за тем, чтобы наш веб-сервер работал как часы – 24 часа в сутки, без перерывов и внезапных падений. Это достигается размещением своего веб-сайта не где попало, а на высококачественном профессиональном хостинге.

Однако мы удалились от основной темы – ведь наша статья вовсе не о хостинге сайтов.

Вернемся к нашим роботам.

Итак, робот поисковой, машины прошел по отведенному ему сегменту интернета за отведенное ему время, и выкачал в приемник поисковой машины все содержимое пройденных сайтов. А все ли? Практика показывает, что далеко не все.

Во-первых, если поисковая система  слабая, небольшая, то есть обладающая ограниченными ресурсами по сбору информации, робот может обходить не все страницы в пределах одного сайта, а только какой-то их количество, принудительно установленное администрацией поисковой машины. Он ушел, но он обещал вернуться, может, и обещал, он вот вопрос-когда? Это зависит от внутреннего распорядка поисковика.

А теперь – внимание! – чрезвычайно важное, во-вторых. Зададим себе простой вопрос:  откуда поисковик может знать, сколько на сайте страниц, и как попасть с одной страницы на другую? Ответ прост и драматичен – ниоткуда и не как! Робот не наделен интеллектом. Он не может напечатать в адресной строке браузера непосредственный адрес страницы - сначала одной, потом другой, третьей…Все на что способен робот – это переходить с одной страницы на другую, следуя гиперссылкам (или просто ссылкам, это два разных названия одного и того же класса реальности).

О ссылках мы с вами будем говорить дальше, и будем говорить очень, даже очень – очень подробно. Потому что ссылки - это живая кровь интернета. Пока же просто запомним: веб-страница, на которую нет ссылок из вне - это мертвая страница, потому что поисковик не доберется до нее никогда (за исключением ситуации, когда владелец этой страницы зайдет в поисковик, и своими умелыми ручками наберет ее URL-адрес в специальном разделе поисковика, поставив эту страницу в очередь, на индексацию). И то более половины поисковиков игнорирует такие страницы, и даже, если и добавляются в сои базы индексации, то удаляют спустя некоторое время, если ситуация не изменится или просто не выдают их в результатах поиска.

Итак, робот поисковой машины прошелся по отведенному ему сегменту интернета за отведенное для этой прогулки время, и собрал какую – то информацию. Чем мощнее поисковик, тем качественней его аппаратное и программное обеспечение, тем меньше белых пятен оставляет он на отведенной для него территории. Это общение и непреложное правило. Именно по этому Яндекс считается однозначно более качественной поисковой машиной нежели…Впрочем, не будем переходить на личность.

После завершения сеанса по сбору информации и ее сбросу в первичные накопители, в этом самом первичном накопителе наблюдается состояние, близкое к хаосу. Иными словами, накопители наполнены копиями страниц сайтов, который обошел робот.

И тут наступает первый момент истины.

Этот самый первый момент истины заключается в том, что программное обеспечение поисковой машины начинает читать - слово за словом, строку за строкой, исходный код собранных страниц. И не просто читать, а – внимание! – интерпретировать. То есть понимать, классифицировать и делать определенный пока еще первичный вывод относительно ценности содержимого данных веб-страниц.

Стоп, возразите вы. Поисковая машина – это всего-навсего совокупность серверного железа и специальных программ. Да что она может понять? Вы правы – ничего.

Понимает не машина; понимают те алгоритмы, которые заложены в нее человеком. Но как эти алгоритмы смогут понять страницу, которую они никогда в глаза не видели? Только на основании формальных правил, заранее заложенных в нее человеком. Точное, группой  людей, создававших и совершенствующих это поисковую машину.

Поисковые машины создаются очень умными людьми. Зачастую – не побоимся этого слова гениальными. Но даже гений не может предусмотреть всех тонкостей и вариантов, которыми наполнена наше повседневность жизни.

Наступает второй момент истины.

Он заключается в том, что обработка поисковой машиной поступающей информации возможно только как сравнение этой информации, ее структуры, ее организации, заранее заложенными в память машины формальными правилами. Во-первых, заранее не претендует на абсолютную точность и справедливость; во-вторых, сколь ни был велик набор этих правил с тем, чтобы максимальное разносторонне оценить поступающую информацию, этот набор всегда конечен.

Таким образом, поисковая машина словно (втискивается) поступающую информацию об окружающей ее многогранной и бесконечной реальности в отведенное место, изготовленное создателем поисковой машины.

Это краеугольный камень устройства поисковика, с одной стороны, служит самой большой проблемой в работе поисковиков, а с другой, благодаря ему маркетинг поисковых машин вообще существует, вообще возможен!

Почему поисковые машины – это плохо, мы с вами из изложенного выше, в общих чертах, уже поняли. Теперь давайте разберемся, почему поисковые машины это хорошо.

Мы ведь говорили, что поисковики формируют информацию на основании заранее заложенных в них формальных алгоритмов? Говорили.

Наступает третий – и последний момент истины!

А что если оцениваемые сайты не просто, повествуют о каком либо предмете, но еще и максимально соответствует понятиям, которые есть у поисковых машин на предмет организации правильности подачи информации? Ведь если сайт будет не только хорош с точки зрения читающего его человека, но и по всем формальным критериям будет максимально подходить  для алгоритма поисковой машины, для всех его элементов, это будет означать, что поисковик оценит этот сайт выше, чем такой же хороший (по мнению живого человека), но недостаточно удовлетворяющее требованиям алгоритма машины! И, соответственно, выведет информацию о первом сайте выше (ближе к началу выдачи), чем втором. А чем выше упоминание о сайте в выдаче поисковика, тем больше количество людей доберется до этого сайта, тем большее количество людей ознакомится с его содержимым, и тем больше выгоды смогут извлечь из этого владельцы сайта.

Сайты на поиске

И так, глобальная задача маркетинга поисковых машин заключается в том, что бы организовать сайт, индексируемый (оцениваемый) поисковиком максимально правильно не только не только с точки зрения человека, но и с точки зрения алгоритма поисковой машины, что бы помочь поместить этот сайт в результат выдачи поисковика максимально близко к началу списка выдачи по введенному в поисковик конкретному поисковому запросу.

Понятно, что идеальной ситуации не бывает никогда. Почему – мы подробно поговорим в нескольких следующих статьях этого сайта. Пока же зададим вопрос: как построить такой сайт, который сможет получить в поисковой машине максимально возможную оценку? Об этом я расскажу Вам в других статьях.

Последние новости