Что называется поисковой системой
Поисковая система
Поиско́вая систе́ма — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.
Улучшение поиска — это одна из приоритетных задач современного Интернета (см. про основные проблемы в работе поисковых систем в статье Глубокая паутина).
По данным компании Net Applications, [1] в ноябре 2011 года использование поисковых систем распределялось следующим образом:
Содержание
История
Хронология | ||
---|---|---|
Год | Система | Событие |
1993 | W3Catalog | Запуск |
Aliweb | Запуск | |
JumpStation | Запуск | |
1994 | WebCrawler | Запуск |
Infoseek | Запуск | |
Lycos | Запуск | |
1995 | AltaVista | Запуск |
Daum | Основание | |
Open Text Web Index | Запуск | |
Magellan | Запуск | |
Excite | Запуск | |
SAPO | Запуск | |
Yahoo! | Запуск | |
1996 | Dogpile | Запуск |
Inktomi | Основание | |
HotBot | Основание | |
Ask Jeeves | Основание | |
1997 | Northern Light | Запуск |
Яндекс | Запуск | |
1998 | Запуск | |
1999 | AlltheWeb | Запуск |
GenieKnows | Основание | |
Naver | Запуск | |
Teoma | Основание | |
Vivisimo | Основание | |
2000 | Baidu | Основание |
Exalead | Основание | |
2003 | Info.com | Запуск |
2004 | Yahoo! Search | Окончательный запуск |
A9.com | Запуск | |
Sogou | Запуск | |
2005 | MSN Search | Окончательный запуск |
Ask.com | Запуск | |
GoodSearch | Запуск | |
SearchMe | Основание | |
2006 | wikiseek | Основание |
Quaero | Основание | |
Ask.com | Запуск | |
Live Search | Запуск | |
ChaCha | Запуск (бета) | |
Guruji.com | Запуск (бета) | |
2007 | wikiseek | Запуск |
Sproose | Запуск | |
Wikia Search | Запуск | |
Blackle.com | Запуск | |
2008 | DuckDuckGo | Запуск |
Tooby | Запуск | |
Picollator | Запуск | |
Viewzi | Запуск | |
Cuil | Запуск | |
Boogami | Запуск | |
LeapFish | Запуск (бета) | |
Forestle | Запуск | |
VADLO | Запуск | |
Powerset | Запуск | |
2009 | Bing | Запуск |
KAZ.KZ | Запуск | |
Yebol | Запуск (бета) | |
Mugurdy | Закрытие | |
Goby | Запуск | |
2010 | Яндекс (англ.) | Запуск |
Cuil | Закрытие | |
Blekko | Запуск (бета) | |
Viewzi | Закрытие | |
2012 | WAZZUB | Запуск |
Одним из первых инструментов поиска в интернете (до Всемирной паутины) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray ) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала [2] с визуальной кластеризацией.
Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.
Популярные поисковые системы
Согласно данным LiveInternet в 2012 году об охвате русскоязычных поисковых запросов:
Некоторые из поисковых систем используют внешние алгоритмы поиска. Так, Qip.ru использует поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.
Необычные поисковые системы
См. также
Примечания
Литература
Ссылки
Ask.com (Ask Jeeves, механизм Teoma) • Blekko • Cuil (закрыт) • DuckDuckGo • Exalead • Gigablast • Google • Bing (Live Search/MSN Search) • Yahoo! Search (Inktomi • AltaVista • Alltheweb) • Яндекс
AskNet.ru • Brainboost • Clusty • Dogpile • FarSEER • exactus.ru • Excite • HotBot • Info.com • Ixquick • Krozilo • Mamma • Metacrawler • MetaLib • Нигма • Myriad Search • SideStep • Surfwax • Turbo10 • WebCrawler • GlobalFileSearch
DataparkSearch • Egothor • Gonzui • Grub • Ht://dig • locust • Isearch • Lucene • Lemur Toolkit & Indri Search Engine • mnoGoSearch • Namazu • Nutch • OpenFTS • Sciencenet (научная, на технологии YaCy) • Wikia Search • Sphinx • SWISH-E • Terrier Search Engine • Xapian • YaCy • Zettair
AGAKIDS (Россия) • Ask Kids (Великобритания) • Frag Finn (Германия) • Kids AOL (США) • Kids Yahoo! (США) • Quintura Дети (Россия) • Семейный Яндекс (Россия) • Гогуль (Россия)
Поисковая система
Поисковая система — это сложная программная разработка, онлайн-интерфейс которой создан для поиска информации в интернете. Главным качеством подобных сервисов является возможность формирования результатов поиска, которые в максимальной степени соответствуют запросам пользователя. Идеал не достигнут, но все лидеры рынка стремятся к нему. Поисковая система — что это? Миллионы людей ежедневно начинают свой серфинг в интернете с запроса в поисковике, но далеко не все могут ответить на этот вопрос. Алгоритмы поисковых систем не только имеют высокую сложность, но и являются важнейшей для компании коммерческой тайной. Но чтобы понять принцип их работы, достаточно рассмотреть базовые направления функционирования.
Сканирование страниц. С помощью поисковых роботов выполняется автоматический мониторинг появления в Сети новых сайтов и страниц, а также изменений на существующих ресурсах.
Индексация. Алгоритмы определяют тематику, ключевые слова, качество и другие параметры. После обработки полученные сведения отправляются на хранение в базы данных, которые таким образом обновляются.
Ранжирование. Определяется место конкретных страниц сайта в выдаче по всем возможным релевантным запросам. Сегодня при ранжировании во внимание берутся сотни факторов, определяющих тематику, качество и полезность ресурса.
Все известные поисковые системы работают по аналогичному принципу. Однако у каждого сервиса есть свои особенности, о которых мы поговорим ниже.
В конце весны 2019 года агентство Statcounter провело исследование, которое показало, что на Google приходится более 92 % мирового поискового рынка. Такой успех во многом обусловлен тем, что компания много усилий прикладывает к совершенствованию своих алгоритмов анализа и ранжирования. В Google делают все возможное, чтобы пользователи получали лучшие результаты поиска. В процессе совершенствования компания периодически выпускала новые алгоритмы. Некоторые из них не имели особого значения, но отдельные становились причиной настоящего переворота в мире продвижения сайтов. Однако система имеет несколько особенностей.
Консервативные инструменты ранжирования. Нужно отметить, что Google до сих пор отдает приоритет техническим факторам ранжирования. При таком «классическом» подходе большое значение имеет ссылочная масса, возраст домена, авторитет сайта. Такая консервативность привела к тому, что информативные и полезные сайты могут оказаться ниже в тематической выдаче, чем ресурсы без хорошего контента, но с удачными техническими показателями. Такая ситуация кажется удивительной для мирового лидера инноваций и передовых технологий. Однако на адекватность ранжирования в Google жалуются не только оптимизаторы, но и многие требовательные пользователи.
Отслеживание поведения пользователей. Также нельзя не отметить того факта, что корпорация Google периодически попадает в скандалы, связанные с конфиденциальностью. Дело в том, что поисковая система очень тщательно отслеживает поведение пользователей в интернете, причем даже за пределами непосредственно самой поисковой системы. С точки зрения обычных людей это не очень хороший факт. Но для бизнеса такой подход к обработке данных является важным плюсом. Ведь рекламодателям сервис может предоставить самый гибкий и широкий набор инструментов для таргетинга рекламы. С помощью рекламных возможностей Google может добиться невероятного охвата, а также точности выхода на целевую аудиторию.
Если говорить о глобальном рынке, то поисковая система Bing уверенно занимает второе место после Google. Этот сервис принадлежит Microsoft, поэтому не удивительно, что он глубоко оптимизирован под работу с Windows. Поисковая система Bing отличается более совершенным, чем у главного конкурента-гиганта, алгоритмом поиска видеороликов. Пользователям здесь предлагают больше качественных вариантов автозаполнения строки. Алгоритмы Bing глубоко анализируют связи между сайтами, что делает поиск похожих вариантов более результативным.
Yandex
Поисковая система «Яндекс» — это лидер поискового рынка Рунета, который фактически на равных соперничает с Google. Сервис отличается собственным алгоритмом с отменной логикой. Его создатели успешно поработали над тем, чтобы роботы лучше «понимали» смысл текстовых материалов. Поэтому для удачного продвижения здесь придется научиться писать полезные и уникальные статьи. Пользователям поисковой системы «Яндекс» предоставляется доступ к широкому набору дополнительных инструментов, включая карты, почту, информатор о загруженности дорог и пр. Нужно отметить, что многие дополнительные сервисы дублируются аналогичными инструментами от Google.
Продвижение в поисковой системе «Яндекс» проходит быстрее, чем в Google. Но добиться хорошего результата можно только при пристальном внимании к качеству контента и поведенческим факторам. Алгоритмы учитывают то, насколько качественный опыт получил пользователь от взаимодействия с сайтом.
DuckDuckGo
Это еще одна достаточно распространенная поисковая система. С ней точно сталкивались пользователи браузера Firefox, ведь там этот сервис предустановлен по умолчанию. В DuckDuckGo принципиально отказались от «слежки» за своими пользователями. Это во многом позволило эффектно противопоставить себя гиганту Google и завоевать массовую популярность среди ценителей конфиденциальности.
Boardreader
Разработчики этого поискового сервиса решили не идти по консервативному пути. В итоге они создали систему, которая формирует выдачу на основе страниц различных авторитетных форумов. В некотором смысле эта система позволяет обойти коммерческие проекты и получить информацию от людей, которые разбираются в теме, но не представляют бизнес.
Dogpile
Это своеобразный граббер Google, Yandex и Yahoo. При вводе запроса в Dogpile система анализирует соответствующую выдачу у трех гигантов поискового рынка. После этого сервис с помощью собственного алгоритма составляет собственную выдачу. Здесь нет рекламы, поэтому можно глубже сосредоточиться на серфинге в интернете.
Creative Commons Search
Это уникальная поисковая система, которая чем-то напоминает узкоспециализированную социальную сеть. Ее алгоритмы позволяют находить необходимые тематические авторские материалы, причем с возможностью их использования для некоммерческих целей. Это просто находка для дизайнеров, музыкантов и других креативных людей.
Giphy
Эта оригинальная система была создана для удобного поиска анимированных изображений. Если вы любите развлекаться просмотром смешных и увлекательных мини-роликов, то эта поисковая система именно для вас. Также поисковик Giphy будет полезен для администраторов развлекательных сообществ.
Quora
По своему функционалу поисковая система очень напоминает гибрид классического информационного ресурса и сайта вопросов-ответов. Здесь всегда можно найти интересных собеседников, для чего и придется воспользоваться внутренним поиском. На главной странице есть рейтинг популярных вопросов, что позволяет сразу влиться в интересную беседу.
Vimeo
Поисковый сервис Vimeo является достаточно интересным и перспективным конкурентом крупнейшего видеохостинга YouTube. Причин популярности сервиса достаточно много: простой принцип обмена контентом, полное отсутствие рекламы и большой выбор материалов в высоком качестве.
WolframAlpha
Поисковая система WolframAlpha — это собственный оригинальный алгоритм поиска, необычный яркий дизайн и большой выбор дополнительных функций, которых не найдешь у конкурентов. Это интересная альтернатива привычным сервисам.
StartPage
Главная особенность этой поисковой платформы — это полное отсутствие слежки за своими пользователями. Это идеальное решение для людей, которые не хотят, чтобы крупные корпорации зарабатывали миллиарды, продавая информацию о поведении и интересах пользователей интернета. В поисковую систему StartPage встроен мощный прокси-сервер, позволяющий анонимно заходить на любые сайты вне зависимости от региональных или персональных блокировок. Пользователи сервиса не оставляют совершенно никаких следов своего присутствия на сайте.
Ask.com
Эта поисковая система, по сути, является агрегатором, который объединяет работы крупных поисковиков. Здесь пользователи могут добавлять в избранное результаты удачного поиска. А также есть возможность задать вопрос другим пользователям системы.
SlideShare
Это специализированный сервис, созданный для людей, которые нуждаются в инфографике, документах, презентациях и подобных материалах. Здесь собрана большая собственная база, многие из материалов которой не дублируются в свободном доступе. Чтобы пользоваться контентом, достаточно пройти простую и бесплатную процедуру регистрации.
Поисковые системы Интернета: Яндекс, Google, Rambler, Yahoo. Состав, функции, принцип работы
1. Введение
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.
Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют…
Данный материал призван дать ответ на вопрос о том, как работают поисковые системы. Однако вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, директора по технологиям и разработке поисковой машины «Яндекс», можно узнать лишь «под пыткой» самого Ильи Сегаловича.
2. Понятие и функции поисковой системы
Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»).
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.
Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.
3. Основные характеристики поисковой системы
Опишем основные характеристики поисковых систем:
Полнота – одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
Точность – еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
Актуальность – не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
4. Краткая история развития поисковых систем
В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.
Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.
Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.
Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google –самая популярная поисковая система в мире!
В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.
В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и MSN, имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
5. Состав и принципы работы поисковой системы
В России основной поисковой системой является «Яндекс», далее – Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».
Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
Indexer (робот- индексатор) – программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.
Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
База данных
Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.
По информации ООО «Рамблер Интернет Холдинг» обработка поискового запроса в системе «Рамблер» происходит, так, как это изображено на рисунке.
Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.
6. Заключение
Теперь подытожим все вышесказанное.
Надеемся, наш материал позволит вам поближе познакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.