Что называется информационно поисковыми системами ипс
Информационно-поисковые системы
Содержание
Виды поисковых инструментов
В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы.
История
Первые поисковые системы появились в середине 90-х годов XX века и были похожи на обычный предметный указатель в книге: в базе поисковой системы хранились ключевые слова со страниц сотен сайтов, и поиск осуществлялся исключительно по ним. Позднее был разработан полнотекстовый поиск. Каждое слово и фраза фиксировались в индексе поисковой системы для каждой страницы сайта в отдельности. Это дало возможность поиска по любым словам и их сочетаниям.
Информационно-поисковые системы совершенствуются постоянно. Это обусловлено стремлением учесть особенности человеческого поведения, чтобы сделать выдачу для каждого посетителя уникальной. Теперь в механизмы обработки и поиска информации все чаще включаются технологии искусственного интеллекта, построенные на новейших вычислительных методах.История
Типы ИПС
ИПС бывают двух типов:
1. Документографические. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.
2. Фактографические. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.Типы ИПС
Части ИПС
Каждая ИПС состоит из двух частей: базы данных (БД) и системы управления базами данных (СУБД).
Задачи ИПС
С точки зрения требований, предъявляемых к точности поисковых операций, общую задачу поиска можно разделить на две крупные подзадачи:
а) поиск в глобальных базах текстовой информации (Интернет).
б) поиск в локальных (корпоративных, сайтовых или персональных) базах.
В глобальных базах (вследствие их всеобъемлющего характера) с очень большой вероятностью может быть найден какой-нибудь подходящий ответ практически на большинство запросов пользователей даже без привлечения для этих целей серьезного методического аппарата. Поэтому модели поисковых систем для Интернет, как правило, базируются, на вероятностно-статистических алгоритмах, ориентированных на отбор текстовой информации по относительно простым формальным правилам и признакам (обычно по сигнатурам ключевых слов или их сочетаний). В них слабо учитываются (или не учитываются вообще) лингвистические особенности и грамматический строй языковой основы отбираемой текстовой информации. Для более качественного отбора текстовых ресурсов, соответствующих запросу пользователя, в глобальных поисковых системах используются также некоторые искусственные приемы априорного назначения релевантности ресурсу (в виде индексов цитирования, частоты встречаемости ключевых слов на данном ресурсе и т.п.). Обращение к лингвистическим методам в глобальных поисковых системах сводится в лучшем случае только к использованию морфологических характеристик лексических единиц того или иного языка. Поэтому, несмотря на широкую популярность подобных систем, при реализации информационно-поисковых процедур на больших объемах информации наряду с полезной передается много лишней, «шумовой» информации. Задача собственно выбора подходящих сведений среди отобранной по запросу информации возлагается на пользователя.
Локальные базы (корпораций, ведомств, учреждений) характеризуются существенно меньшими объемами информации (по сравнению с глобальными Интернет-базами). Очевидно, что для поиска точного ответа в локальных базах (вследствие их малой размерности) вероятностно-статистические методы, широко применяемые в глобальных поисковых системах, принципиально не подходят. Качество работы организационных систем (госорганов, ведомств, корпораций и т.д.) нередко напрямую зависит от оперативности обеспечения персонала необходимой информацией (распорядительной, учетной, текущей, справочной и т.д.) по различным предметным областям и темам. Успешный поиск точного ответа в локальных системах может быть реализован только на основе достаточного глубокого лексико-грамматического анализа текстовой базы и запросов пользователей, а также широкого привлечения эвристических методов оценки их смыслового соответствия.Задачи ИПС
Информационно-поисковая система
Как правило, основной частью поисковой системы является поиско́вая маши́на (поиско́вый движо́к) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность(степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии
Улучшение поиска — это одна из приоритетных задач сегодняшнего Интернета (см. про основные проблемы в работе поисковых систем в Глубокая паутина).
По данным компании Net Applications [1] в декабре 2007 года рыночная доля распределялась:
По данным аналитической компании comScore все поисковые сайты в декабре 2007 года обработали 66 млрд 221 млн поисковых запросов. [2] [3] Яндекс попал в статистику и находится на 9-ом месте.
Содержание
История
Одним из первых инструментов поиска в интернете (до WWW) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray ) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Aport. 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и метапоиска. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик кластеризацию. В 2006 году открылась российская метамашина [4] с визуальной кластеризацией.
Помимо поисковых машин для Всемирной паутины, существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным Gopher.
Информационно-поисковая система (ИПС)
Информационно-поисковая система (ИПС) [information retrieval system] или информационно-справочная система, — основанная на ЭВМ система, способная накапливать информацию в той или иной области знаний и выдавать ее по запросам, поступающим обычно с дистанционных пультов по каналам связи. Примеры бытовых информационно-справочных систем — устройства, которые выдают сведения о наличии мест в гостиницах города или билетов на самолеты.
Различают фактографические и документальные ИПС. В первых базы данных составляются из форматированных (формализованных) записей, во-вторых — записями служат различные неформализованные документы (статьи, рефераты, письма и т.п.). В фактографической системе каждая запись обязательно включает некий признак, который однозначно ее идентифицирует. Например, в системе кадрового учета, включающей совокупность анкет, таким признаком, «первичным ключом», может служить табельный (учетный) номер работника. С помощью дополнительных (или вторичных) ключей осуществляется подбор записей, обладающих теми или иными свойствами — например, выборка всех анкет людей данного возраста или данной профессии.
Принцип действия документальных ИПС основан на том, что каждому документу, хранящемуся в них (это может быть книга, бухгалтерская ведомость, статистическая сводка, письмо, статья из газеты и т.д.), присваивается «поисковый образ», т.е. стандартизированный перечень признаков, записанный на специальном «информационно-поисковом языке«, (см. также Дескриптор, Тезаурус). Запрос также должен быть переведен на этот язык, и если при просмотре всех хранящихся в памяти машины поисковых образов найдутся такие, которые совпадут с «поисковым образом» запроса, значит, нужные документы найдены. Они и выдаются машиной.
Полезное
Смотреть что такое «Информационно-поисковая система (ИПС)» в других словарях:
Информационно-поисковая система (ИПС) — средство информационного обслуживания, предназначенное для отыскания в множестве документов тех, которые содержат соответствующие информационному запросу сведения. ИПС состоит и трех взаимосвязанных элементов: справочно информационного фонда… … Контрразведывательный словарь
информационно-поисковая система — ИПС Совокупность справочно информационного фонда и технических средств информационного поиска в нем. [ГОСТ 7.73 96] информационно поисковая система Система, предназначенная для поиска информации в базе данных и всей совокупности информационных… … Справочник технического переводчика
Информационно-поисковая система — (ИПС) (a. information retrieval system; н. Informationsrecherchesystem, Informationswiedergewinnungssystem; ф. systeme de recherche de l information; и. sistema de la recuperacion de informaciones) предназначена для хранения, поиска и… … Геологическая энциклопедия
информационно-поисковая система — 3.9 информационно поисковая система: По ГОСТ 7.73. Источник … Словарь-справочник терминов нормативно-технической документации
Информационно-поисковая система — система, выполняющая функции: хранения больших объемов информации; быстрого поиска требуемой информации; добавления, удаления и изменения хранимой информации; вывода информации в удобном для человека виде. Различают: автоматизированные… … Финансовый словарь
информационно-поисковая система — Rus: информационно поисковая система (сокр. ИПС) Eng: information retrieval system; IR system Совокупность справочно информационного фонда и технических средств информационного поиска в нем. ГОСТ 7.73 [3.2.1] … Словарь по информации, библиотечному и издательскому делу
Информационно-поисковая система оперативно-розыскного назначения (ИПС) — система средств хранения, поиска и выдачи по запросу органов внутренних дел данных о лицах, событиях и предметах, имеющих значение для предупреждения и раскрытия преступлений. ИПС подразделяются на универсальные и специализированные.… … Криминалистическая энциклопедия
Информационно-поисковая система — (ИПС) совокупность объектов и отношений между ними, предназначенная для хранения, поиска и выдачи информации по запросам пользователей, обеспечивающая отбор и вывод информации по заданному в запросе условию … Пограничный словарь
автоматизированная информационно-поисковая система — 3.2.5 автоматизированная информационно поисковая система: ИПС, реализованная на базе электронно вычислительной техники Источник … Словарь-справочник терминов нормативно-технической документации
документальная информационно-поисковая система — 3.2.2 документальная информационно поисковая система: ИПС, предназначенная для поиска документов и/или сведений о них Источник … Словарь-справочник терминов нормативно-технической документации
1. Общие сведение о информационно-поисковых системах (ИПС). Основные определения.
2. Функционирование ИПС. Схема функционирования поисковой системы.
3. ИПС, базирующиеся на классификации.
4. Организация ИПС на поиски по ключевым словам.
6. Развитие информационно – поисковых систем.
Поиск информации, электронные каталоги, информационно – поисковая система, классификация, ключевые слова, метаданные, объём информации, анализ документа, поисковый образ, запрос, релевантность, атрибут, метасистема, рубрикация, информационные ресурс, эффективность, библиотечные каталоги, технология, портал, образовательная срда, пользователи, архитектура, автоматизированная система.
В последние годы сеть интернет стала основным хранилищем информации. С ростом объёмов хранимых данных стала актуальной проблема информационного поиска. Для облегчения поиска на открытых для доступа сайтах в интернет используют информационно – поисковые системы (ИПС) и электронные каталоги.
В ИПС собираются, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе Web – серверов. Индексирование включает создание поисковых образов документов. Обычно в поисковый образ входят или все значащие слова, имеющиеся в документе, или только слова из заголовка.
Информационно – поисковая система–программная система для хранения, поиска и выдачи интересующей пользователя информации. Информационно – поисковая система выполняет анализ документов, создание и хранение поисковых образов документов, анализ запросов пользователей, поиск и выдачу пользователю данных о месте расположения в сети запрашиваемых документов.
В основе поиска лежит сопоставление запроса пользователя с поисковыми образамидокументов, в результате отбираются релевантные документы, т.е. документы, чьи поисковые образы соответствуют запросу. Во многих ИПС пользователю представляется возможность обращаться к серверу с запросами на естественном языке, а также со сложными запросами, включающими логические связки. Примерами таких ИПС могут служить системы Excite, Lycos, Altavista и другие. Для функционирования Altavista в своё время фирма DEC выделила несколько компьютеров, в том числе десятипроцессорную машину Alpha – 8400.
Поисковые образы, называемые также метаописаниямиили метаданными,могут представлять собой значения атрибутов документов или множество ключевых слов. Поиск на основе этих двух вариантов поисковых образов называют атрибутивным и контекстным поиском. Часто используют сочетание этих двух способов поиска.
Поиск в электронных каталогах основан на составлении запроса с разделами информации в иерархической структуре её классификации.
Классификацию информации называют рубрикацией.Наиболее сложной является разработка тематической рубрикации. В мире существует ряд систем тематической рубрикации. Та, в России широко известны иерархические системы УДК (универсальная десятичная классификация) и ГРНТИ (Государственные реестр научно – технической информации). Однако, они громоздки и неудобны для использования в электронных каталогах и образовательных ИПС. Поэтому существует ряд частных систем рубрикации с несколькими уровнями иерархии.
Отметим, что если в ИПС создание поисковых образов осуществляется автоматически, то в электронных каталогах структура информационных ресурсов определяется квалифицированными людьми.
Примеры поисковых систем, работающих по принципу электронного каталога: Yahoo!, Galaxy, Looksmart, Yandex. Так, в Yahoo! На верхнем уровне иерархи выделено 14 категорий (например, искусство и гуманитарные науки, образование, бизнес и экономика, наука и др.) Пользователь при поиске осуществляет навигацию по разделам иерархического дерева, спускаясь от верхнего уровня до искомого конечного, на котором он получает сведения об адресах сайтов с нужными информационными ресурсами. Объем информационного пространства в упомянутых системах довольно велик. Так, в системе Yahoo! Была собрана информация 1 800 000 сайтов.
Функционирование информационно – поисковой системы
Общая схема функционирования традиционной ИПС представлена на рис.
Рис. 1. Схемы функционирования ИПС.
Основными процессами в ИПС являются индексирование документов и поиск документов по запросу пользователя. Процесс информационного поиска происходит следующим образом. Пользователь выражает свои информационные потребности в виде специального текста – информационного запросак ИПС. Система формирует из информационного запроса поисковое предписание,переводя запрос на информационно – поисковый язык (ИПЯ). ИПЯ представляет собой формальный язык, который используется внутри ИПС для представления пользовательского запроса и хранимых документов. Описание документов на ИПЯ называется поисковым образомдокумента. В процессе поиска ИПС должна выбрать из массива документов те, которые содержательно релевантнызапросу, то есть соответствуют информационным потребностям пользователя, выраженным в запросе. Такое определение релевантности не формально, поэтому определяют формальную релевантность, как соответствие, определяемое алгоритмически, путем сравнения поискового предписания и поискового образа документа. Критерий выдачидокумента – поискового образа документа и поискового предписания, по которому принимается решение о выдаче некоторого документа в ответ на информационный запрос.
В процессе индексирования,для каждого документа, хранящегося в системе, строится поисковый образ. Различают 2 основных подхода к построению поискового образа –приписывающее и выводящееиндексирование. В первом случае в процессе индексирования документу присваивается номер ключевых слов из некоторой классификационной системы, и документ помещается в общую классификацию. Во втором случае из документа выбирается набор ключевых слов и объявляется поисковым образом, с которым далее работает ИПС.
Традиционные ИПС осуществляют как поиск, так и хранение документов. В отличие от традиционных ИПС, ИПС для поиска информации в интернет не могут осуществлять фукнцию хранения документов, что приводит к необходимости другого подхода к организации работы ИПС.
Рассмотрим основные классы промышленных ИПС для поиска информации в интернет.
ИПС, базирующиеся на классификации.
В целом, схема работы такой ИПС в Интернет аналогична схеме работы традиционной ИПС. Общая схема работы ИПС на основе классификации показана на рис. 2.
Рис. 2.Общая схема работы ИПС базирующейся на классификации.
Основным отличием является появление процесса поиска новых документов. В традиционных ИПС новые документы вводятся в систему хранения оператором и индексируются. В ИПС, ориентированных на работу в Интернет, ввод новых документов осуществляется либо вручную оператором, либо автоматически с помощью специальной программы обхода Интернет – индексирующего робота. Применение для информационного поиска в интернет ИПС базирующихся на классификации эффективно в случае, когда классификационная система построена по узкой предметной области.
Основных недостатков два:
1. Для качественного поиска они вынуждены выкачивать из Интернет все документы для индексирования и хранения их у себя. Это приводит к большому объёму хранимой информации, высокой нагрузке на сеть и необходимости постоянно обновлять информации в базе;
2. Поиск документов пользователем может осуществляться только по используемой классификационной системе.
ИПС, базирующиеся на поиске по ключевым словам.
ИПС базирующиеся по ключевым словам позволяют искать Web – страницы о их содержанию, формируя запрос в виде ключевых слов, которые должны присутствовать в документе. В настоящее время, системы поиска по ключевым словам представляют собой наиболее распространенные ИПС в интернет.
На рис. 3 показана общая схема работы системы поиска по ключевым словам. Основными процессами в работе системы является поиск новых документов индексирующим роботом, индексирование найденных документов и выполнения запроса пользователя.
Индексирующий робот представляет собой автономный процесс, постоянно или периодически обновляющий и пополняющий базу документов. Изначально роботу дается список Web – серверов, которые необходимо проиндексировать. В процессе работы индексирующий
Рис. 3. Общая схема работы системы по ключевым словам.
По известным ИПС документам строится индекс, позволяющий эффективно осуществлять поиск по ключевым словам. Дальнейшее хранения всего документа после индексирования ненужно, для экономии дискового пространства хранится короткий поисковый образ. Запрос пользователя представляет собой набор ключевых слов с булевыми связками. Выбор документов по запросу осуществляется с помощью индекса. ИПС возвращает в ответ на запрос список ссылок на документы.
Достоинством систем поиска по ключевым словам является простота использования. К недостаткам можно отнести следующие особенности.
1. В ответ на запрос выдается много нерелевантной информации. Это происходит из-за того, что с помощь. Списка ключевых слов практически можно сформулировать информационные потребности пользователя.
2. Индексирующие роботы сильно загружают сеть. Так как робот не имеет возможности перемещаться по сети, он вынужден скачивать большие объемы информации для локальной обработки (объём информации исчисляется терабайтами).
3. Невозможность работы с часто изменяемой информацией.
4. Охват Интернет любой из имеющихся систем поиска по ключевым словам не превышает 16%.
5. Возможность работы пользователя только в интерактивном режиме.
Метасистемы.Метасистемы для ИП в Интернет, являются надстройками над существующими системами поиска по ключевым словам. Они позволяют преодолеть следующие недостатки промышленных систем поиска по ключевым словам.
Решение проблемы ИП в Интернет на сегодняшний день состоит не только в построении эффективных ИПС, но и в изменении структурной организации информации Интернет.
Технология поиска, основанная на упорядочении метаинформации наподобие библиотечных каталогов (классификация по содержанию) продолжает развиваться.
Однако поиск по ключевым словам во всем пространстве Интернет не всегда оказывается эффективным и может потребовать слишком много времени. Сделать работу пользователя корпоративной системы в интернет более эффективной позволяет технология порталов, применение языка разметки XML и языков поиска XPath или XQuery в базах XML – документов.
Контрольные вопросы и задания.
1. Какую информацию выполняют информационно – поисковые системы?
2. Что лежит в основе поиска информации?
3. Что представляют собой поисковые образы и каким образом осуществляется создание поисковых образов?
4. Приведите примеры ИПС.
5. Объясните и составьте общую схему работы ИПС, базирующейся на классификации.
6. Каким образом происходит поиск в ИПС по ключевым словам?
7. Какие недостатки имеет система поиска по ключевым словам?
8. Что такое рубрикация?
9. По каким признакам классифицируется ИПС?
10. Приведите примеры поисковых систем по принципу электронного каталога.
11. Для каких целей в Интернет создают порталы?
12. Перечислите задачи, связанные с развитием ИПС.
Литература 2, 5, 13, 18.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Понятие и виды информационно-поисковых систем.
Информационно-поисковая система – это прикладная компьютерная среда для обработки, хранения, сортировки, фильтрации и поиска больших массивов структурированной информации.
Каждая ИПС предназначена для решения определенного класса задач, для которых характерен свой набор объектов и их признаков. ИПС бывают двух типов:
1. Документографические. В документографических ИПС все хранимые документы индексируются специальным образом, т. е. каждому документу присваивается индивидуальный код, составляющий поисковый образ. Поиск идет не по самим документам, а по их поисковым образам. Именно так ищут книги в больших библиотеках. Сначала отыскивают карточку в каталоге, а затем по номеру, указанному на ней, отыскивается и сама книга.
2. Фактографические. В фактографичеких ИПС хранятся не документы, а факты, относящиеся к какой-либо предметной области. Поиск осуществляется по образцу факта.
Каждая ИПС состоит из двух частей: базы данных (БД) и системы управления базами данных (СУБД).
На настоящий момент существует множество различных СУБД. Наиболее широкую известность получили такие как Dbase, Clipper, FoxPro, Paradox, Microsoft Access.
ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете.
Функционирование современных ИПС основано на двух предположениях:
1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;
2) пользователь способен указать этот признак.
ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).
Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:
2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.
Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.
1) одном пространстве (обычно, тематическом);
2) иерархически упорядоченном пространстве;
3) альтернативных пространствах;
4) динамическом (изменяющемся в процессе поиска) пространстве.
Реализуемый метод построения ПОЗа должен обеспечивать эффективные способы построения запроса для достижения целей различного типа.
Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом «дружественность» интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.
Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.
Процесс поиска можно представить в виде следующих основных компонент:
1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;
2) проведение поиска в одной или нескольких поисковых системах;
3) обзор полученных результатов (ссылок);
4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;
5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.
Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.
По используемым поисковым технологиям ИС можно разбить на 4 категории:
1. Тематические каталоги;
2. Специализированные каталоги (онлайновые справочники);
3. Поисковые машины (полнотекстовый поиск);
4. Средства метапоиска.
В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков.
Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).
Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС «AltaVista» более 56 млн. URL-адресов.
При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и «персональные программы поиска», позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).
Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки.
ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их «релевантности», то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких «по смыслу» к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.
ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.
Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:
Определение области знаний;
Выбор типа и источников данных;
Сбор материалов необходимых для наполнения информационной модели;
Отбор наиболее полезной информации;
Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);
Выбор алгоритма поиска закономерностей;
Поиск закономерностей, формальных правил и структурных связей в собранной информации;
Творческая интерпретация полученных результатов;
Интеграция извлеченных «знаний».
Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы «И», «ИЛИ», «НЕТ».
Технологии поиска информации
Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.
Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.
Методы обработки результатов поиска
По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:
1. Структурно-форматные преобразования;
2. Структурно-семантические преобразования (информационно-аналитические, логико-семантические).
Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.
Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова «библиотечный» можно ввести его фрагмент «библиоте*». При этом будут найдены документы, в которых содержится не только слово «библиотечный», но и «библиотека», «библиотекарь», «бибилотековедение» и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.
С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.
Полученные в результате поиска документы сохраняют.
Критерии оценки поиска
Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.
Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.
Оценка и обработка результатов поиска
Развитие процесса поиска осуществляется путём модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.
Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.
Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии.
«Технология поиска (англ. «Search Technology») означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, то есть соответствием ответа вопросу (запросу).
Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.
«Роботы» имеют ряд разновидностей, одной из которых является «паук» (англ. «spider»). Он непрерывно «ползает по сети», переходя с одной веб-страницы к другой с целью сбора статистических данных о самой «паутине» (Web) и (или) формирования некоторой БД с индексами содержимого веб.
Автоматизированные агенты «спайдеры» регулярно сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем.
В разных системах эта цель достигается различным образом. Одни посылают «агентов» на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти веб-страницы в различной степени индексируются (только заголовки веб-страниц и ссылки, включая автоматическое аннотирование документов или весь текст).
Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), «Lycos», «Yahoo», «Google», «OpenText», «Wais», «WebCrawler» и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,
К отечественным поисковым машинам относятся: Апорт («Aport» АО Агама), Rambler (фирма Stack Ltd.), Яндех («Yandex» фирма CompTek Int), «Русская машина поиска», «Новый русский поиск», и др. Их адреса в Интернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно) и др.
2. Виды операций пользователя при взаимодействии с информационно-поисковой системой.
3. Основы поиска информации в информационно-поисковых системах.
Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.
Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.
В общем случае поиск информации состоит из четырех этапов:
определение (уточнение) информационной потребности и формулировка информационного запроса;
определение совокупности возможных держателей информационных массивов (источников);
извлечение информации из выявленных информационных массивов;
ознакомление с полученной информацией и оценка результатов поиска.
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:
Наличие у документа точного адреса
Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.
Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.
Процесс поиска документов по их содержанию.
Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
Составление поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.
При семантическом поиске находится множество документов без указания адресов.
В этом принципиальное отличие каталогов и картотек.
Библиотека — собрание библиографических записей без указания адресов.
Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.
Два вида документального поиска:
Библиотечный, направленный на нахождение первичных документов.
Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.
Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.
Различают два вида:
Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.
Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.
4. Стратегии поиска информации в сети Интернет.
Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.
1) одном пространстве (обычно, тематическом);
2) иерархически упорядоченном пространстве;
3) альтернативных пространствах;
4) динамическом (изменяющемся в процессе поиска) пространстве.
Некоторую специализирoванную информацию стоит поискать в специализированных каталогах, просматривая нужные вам тематические разделы. Увидев качественный, подходящий вам по тематике поиска сайт, не спешите брoсать его не просмотрев страницы ссылок. Обычно для серьезных сайтаx ссылки подобраны сколько, и весь возможно вы найдете что-то там.
База данных этой Поисковой Машины разделена для тематические разделы, один с которых (Health, Поисковая Машина Yahoo) в ответ для запрос представляет новoсть «меню» для выбора в виде более детальной рубрикации раздела Health, включающего Deseases and Conditions (болезни и состояния). Поскольку Yahoo. удерживает в процессе поиска иерархическую структуру разделов, всегда можно вернуться для пpедыдущий вышестоящий степень, если по некоторый причине вызванный нынешний раздел не оправдал ожиданий. Выбрав Diseases and Couditions, вы получаете новость «меню», с которого можно вызвать раздел Diabetes, если нажать букву D в алфавите страницы. Yahoo. Стартовая точка сбора информации в Интернете для начинающих.
Условно инструменты поиска подразделяются для поисковые средства справочного типа (directories
Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим.