Цель модуля - получить представление об основных принципах функционирования поисковых систем Internet, изучить технологии эффективного поиска информационных ресурсов.
|
ПОСТАНОВКА ЗАДАЧИ ПОИСКА |
Рассмотрим постановку задачи поиска. Для этого нам необходимо
ответить на три вопроса: что искать (какие источники информации); где
искать (место размещения этих источников) и как искать (какие инструменты
для этого использовать). |
|
ИСТОЧНИКИ ИНФОРМАЦИИ В INTERNET |
Выделим основные источники информации, представленные в
Internet. Это: -
документы WWW; -
статьи в группах новостей и списках рассылки; -
файлы в библиотеках файлов; -
справочники адресной информации об организациях и людях
(электронная почта, адрес, телефон); -
статьи в тематических базах данных,
энциклопедиях. |
|
РАЗМЕЩЕНИЕ ИСТОЧНИКОВ ИНФОРМАЦИИ В INTERNET |
Теперь ответим на вопрос,
где размещаются эти источники информации. Это такие популярные ресурсы
Internet, как WWW, группы новостей, списки рассылки и
FTP-серверы. В настоящее время основным местом
размещения информации в Internet является всемирная
паутина. |
|
СПОСОБЫ ПОИСКА |
Безусловно, можно искать источники информации «вручную»,
начиная с какого-либо стартового адреса и переходя по нужным ссылкам. Вы
можете узнать адреса из специализированных журналов по информатике и
Internet, использовать справочники под названием Желтые страницы с
классифицированными по категориям адресами фирм и учреждений. Подобные
справочники выпускаются в бумажном варианте или на CD-ROM. Однако для эффективного
поиска информации в таком изменчивом пространстве как Internet необходимо
научиться пользоваться специальными инструментами, цель которых – собирать
данные об информационных ресурсах глобальной компьютерной сети и
предоставлять пользователям услугу быстрого поиска. |
|
ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ (ИПС). ОПРЕДЕЛЕНИЕ |
Таким образом, мы
подходим к понятию автономного инструмента поиска –
информационно-поисковой системы. ИПС (информационно-поисковая
система)
– это система, обеспечивающая
поиск и отбор необходимых данных в специальной базе с описаниями
источников информации (индексе) на основе
информационно-поискового языка и соответствующих правил поиска
[1]. |
|
ГЛАВНАЯ ЗАДАЧА ИПС |
Главной задачей любой ИПС
является поиск информации в
соответствии с информационными потребностями пользователя, формируемыми в
виде запроса. Очень важно в результате проведенного поиска ничего не
потерять, то есть найти в индексе все документы, относящиеся к запросу
(полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому
вводится качественная характеристика процедуры поиска –
релевантность. Релевантность – это соответствие результатов поиска
сформулированному запросу. |
|
ОСНОВНЫЕ ПОКАЗАТЕЛИ ИПС ДЛЯ WWW |
Далее мы будем, в
основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для
WWW являются пространственный масштаб и специализация
[1]. По пространственному
масштабу ИПС можно разделить на локальные, глобальные, региональные и
специализированные. Локальные поисковые системы могут быть разработаны для
быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС
описывают информационные ресурсы определенного региона, например,
русскоязычные страницы в Internet. Глобальные поисковые системы в отличие
от локальных стремятся по возможности наиболее полно описать ресурсы всего
информационного пространства сети Internet. Кроме того, ИПС могут
специализироваться по поиску различных источников информации, например,
документов WWW, файлов, адресов и
т.д. |
|
ОСНОВНЫЕ ЗАДАЧИ ПРОЕКТИРОВАНИЯ ИПС ДЛЯ WWW |
Рассмотрим подробнее
основные задачи, которые должны решить разработчики ИПС. Как следует из
определения, ИПС для WWW проводят поиск в собственной базе
(индексе), в которой содержится результат описания распределенных
источников информации. Значит, сначала нужно описать информационные
ресурсы и создать индекс. Построение индекса начинается с определения
начального набора URL источников информации [2]. Затем
проводится процедура индексирования. Индексирование – описание источников информации и
построение индекса. Индекс – специальная база данных для эффективного
поиска описанных информационных ресурсов. В некоторых
информационно-поисковых системах описание источников информации проводится
персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на
каждый ресурс. Затем, как правило, проводится сортировка описанных
ресурсов по темам (составление тематического каталога). Конечно, описание,
составленное человеком, будет адекватно источнику. Правда, в этом случае
процедура индексирования занимает значительный период времени, поэтому
формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в
подобной системе можно будет проводить так же легко, как в тематических
каталогах библиотек. В ИПС другого типа
процедура описания информационных ресурсов автоматизирована. Для этого
разрабатывается специальная программа-робот, которая по определенной
технологии обходит ресурсы, описывает их (проводит индексирование) и
анализирует ссылки с текущей страницы для расширения области поиска. Как
может описать документ программа? Чаще всего просто составляется список
слов, которые встречаются в тексте и других частях документа, при этом
учитывается частота повторения и местоположение слова, то есть, слову
приписывается своеобразный весовой коэффициент в зависимости от его
значимости. Например, если слово находится в названии Web-страницы, робот присвоит ему более высокий
коэффициент. Поскольку описание автоматизировано, затраты времени
невелики, и индекс может оказаться очень большим по размеру. Таким
образом, следующей
задачей для ИПС второго типа является разработка
робота-индексировщика. Робот-индексировшик – программа, которая служит для
сканирования Internet и поддержки базы данных индекса в актуальном
состоянии [1]. Для поиска
в системах данного типа пользователю необходимо научиться составлять
запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет
искать в своем индексе документы, в описаниях которых встречаются слова из
запроса. Для проведения более качественного поиска необходимо
разрабатывать специальный язык запросов для пользователя. В зависимости от
особенностей построения модели индекса и поддерживаемого языка запросов
разрабатываются механизм поиска и алгоритм сортировки
результатов. Поскольку
индекс имеет значительный объем, количество найденных документов может
оказаться достаточно большим. Следовательно, чрезвычайно важно, как
поисковая машина проведет поиск и отсортирует его
результаты. Существенное значение имеет
внешний вид поисковой системы, предстающий перед пользователем, поэтому
одной из задач является разработка удобного и красивого
интерфейса. Наконец,
исключительно важна форма представления результатов поиска, поскольку
пользователю необходимо узнать как можно больше о найденном источнике
информации, чтобы принять правильное решение о необходимости его
посещения. |
|
РАБОТА С ИПС ДЛЯ WWW |
Рассмотрим обобщенную схему взаимодействия пользователя с
информационно-поисковой системой для всемирной паутины WWW (рис. 1.) [1]. Пользователь с помощью
стандартной программы-клиента для всемирной паутины (браузера)
подключается к ИПС по ее адресу и формулирует запрос для
поиска. Основным компонентом ИПС
является поисковая машина, которая проводит в индексе поиск ссылок на
информационные ресурсы и выдает результаты поиска
пользователю. Как уже говорилось ранее,
поиск осуществляется в специальной базе, именуемой индексом. Архитектура
индекса устроена таким образом, чтобы поиск проходил максимально быстро, и
можно было использовать эффективные алгоритмы сортировки результатов
поиска. В идеале результаты поиска должны быть отсортированы таким
образом, чтобы наиболее релевантные ссылки находились вверху
списка.
|
|
ОСНОВНЫЕ ИСТОЧНИКИ ИНДЕКСИРОВАНИЯ ДЛЯ ДОКУМЕНТОВ WWW |
Как известно, Web-страница – это сложный
документ, состоящий из множества элементов. При описании подобного
документа программой-роботом необходимо учитывать, в какой именно части
Web-страницы
встретилось данное слово. Источниками индексирования
для документов WWW обычно являются
[2]: -
заголовок
Web-страницы (Title); -
заголовки
различных уровней (H1-H6); -
аннотация
(Description); -
списки
ключевых слов (KeyWords); -
гипертекстовые
ссылки; -
полные
тексты документов. Поисковые системы, которые описывают весь текст документа
WWW, называются
полнотекстовыми. |
|
ОСОБЕННОСТИ ПРОЦЕДУРЫ ИНДЕКСИРОВАНИЯ |
Во время процедуры индексирования часто производится
нормализация лексики (приведение слова к базовой форме). Некоторые
неинформативные слова, например, союзы или предлоги, не индексируются. В
каждой ИПС существует свой список так называемых стоп-слов, которые
игнорируются в процессе индексирования. В системах с сильно изменяемыми
языками, например, русским, проводится учет морфологии. Учет морфологии
означает умение работать с различными формами слов конкретного языка.
Здесь следует отметить относительную сложность русского языка, слова
которого изменяются по числам, падежам, родам и временам, причем зачастую
неожиданным образом (например: идет, шел, пойдет, идут и т.д.). Все
существующие ИПС с учетом морфологии русского языка используют
«Грамматический словарь русского языка», составленным Андреем
Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по
каждому слову даются сведения о том, изменяемо ли оно, и как именно оно
склоняется или спрягается [3]. |
|
СРЕДСТВА ПОИСКА В WWW |
Из вышеизложенного
следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Internet существуют
средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС.
В общем случае, можно выделить следующие поисковые инструменты для
WWW: поисковые системы, метапоисковые системы
(поисковые службы) и программы ускоренного поиска (поисковые
агенты).
Центральное место по
праву принадлежит поисковым системам, которые в свою очередь
подразделяются на каталоги, автоматические индексы (поисковые машины) и
каталоги-машины. Только поисковые системы почти в полном объеме обладают
возможностями и свойствами ИПС. Каталог (Directory) – поисковая система, в которой описание
ресурсов проводится персоналом (людьми). Затем проводится сортировка
описанных ресурсов по темам (составление тематического
каталога). Поисковая машина (Search Engine) – поисковая система, которая для
автоматизации процедуры описания информационных ресурсов использует
программу-робот. Последнее время во
всемирной паутине стали появляться системы, автоматически осуществляющие
поиск сразу в двух индексах (индексе каталога и индексе поисковой машины).
Подобные системы позволяют использовать преимущества поисковых серверов
обоих типов и называются каталогами-машинами. Принципиальным отличием метапоисковых систем и программ
ускоренного поиска от ИПС является отсутствие своего собственного индекса.
Данные инструменты проводят поиск в индексах других поисковых
систем. Метапоисковая система (Metacrawler) – поисковая система, не имеющая своего
индекса, но способная послать запросы пользователя одновременно нескольким
поисковым серверам, затем отобрать самые релевантные результаты,
объединить их и представить пользователю в виде документа со
ссылками. Программа ускоренного
поиска (Searchbots) – это программа, устанавливаемая на
компьютере пользователя, способная отправить запрос нескольким поисковым
серверам и отсортировать полученные результаты, удаляя
дубликаты. Заметим, что большинство
поисковых систем являются одним из компонентов многофункциональных
Web-сайтов Internet – так называемых
порталов. Портал – многофункциональный Web-узел Internet, предлагающий разнообразные услуги: поиск
информации, бесплатная электронная почта и
т.д. |
|
КАТАЛОГИ WWW |
Рассмотрим особенности
систем-каталогов. В каталогах описание источников информации проводится
персоналом, то есть, людьми, которые составляют краткую аннотацию на
каждый ресурс. Затем, как правило, проводится сортировка описанных
ресурсов по темам (составление тематического
каталога). Поиск в каталоге очень удобен и проводится посредством
последовательного уточнения тем. На начальной (домашней) странице системы
подобного рода вы увидите список самых крупных тем (категорий), выделенных
персоналом каталога, реализованных в виде гипертекстовых ссылок. Например,
Компьютеры, Интернет, Образование, Искусство и т.д. Выбрав ссылку на
категорию первого уровня, вы попадете на страницу со списком подкатегорий,
и т.д. Таким образом, не углубляясь в сложности составления запросов, вы
достаточно легко найдете источники по выбранной вами тематике. Следует
заметить, что ресурсы, описанные в каталогах, обычно представляют собой
специализированные сайты высокого качества. Многие каталоги поддерживают возможность быстрого поиска
определенной категории или страницы по ключевым словам с помощью локальной
поисковой машины. Отметим, что база данных ссылок (индекс) каталога обычно имеет
ограниченный объем. Некоторые каталоги используют программы-роботы для
автоматического обновления индекса. Результат поиска в каталоге представляется в виде списка; по
каждому ресурсу дается краткое описание (аннотация) с гипертекстовой
ссылкой на первоисточник. |
|
АДРЕСА ИЗВЕСТНЫХ КАТАЛОГОВ |
Среди самых популярных
зарубежных каталогов следует в первую очередь упомянуть каталог
Yahoo. В число каталогов с размером индекса
свыше 2 миллионов ссылок входят каталоги Open Directory и LookSmart. -
Yahoo!
(http://www.yahoo.com); -
Open Directory
(http://dmoz.org); -
LookSmart
(http://www.looksmart.com). Российские популярные
каталоги: -
Каталог @mail.ru (List.ru) (http://www.mail.ru, http://www.list.ru); -
Weblist
(http://www.weblist.ru); -
Созвездие Интернет (Каталог Апорт)
(http://www.stars.ru, http://www.aport.ru). |
|
ВНЕШНИЙ ВИД КАТАЛОГА YAHOO WWW.YAHOO.COM |
Рассмотрим внешний вид
домашней страницы самого популярного англоязычного каталога Yahoo (http://www.yahoo.com) (рис. 3). Как обычно, на начальной
странице систем-каталогов вы обязательно увидите список крупных тем
(категорий). В каталоге Yahoo! есть возможность проведения быстрого
поиска по ключевым словам с использованием бланка для ввода запроса.
Наиболее простым способом поиска является последовательные щелчки мышью по
нужной вам категории. Например, наша задача - найти Web-сайты, посвященные on-line курсам по компьютерным наукам, то есть
курсам, проводящим обучение через Internet. В этом случае можно выбрать следующую
схему уточнения по темам: с домашней страницы выбираем ссылку Science (Наука), далее Computer Science (Компьютерные науки), затем Courses (Курсы) и Courses Online (Курсы Онлайн). В результате переходов
получаем список аннотаций с названиями соответствующих страниц (рис. 4).
Далее с помощью щелчка по заинтересовавшей ссылке можно перейти к
первоисточнику и изучить его. |
|
|
|
|
|
|
|
ПОИСКОВЫЕ МАШИНЫ |
Отличительной чертой поисковых машин
является тот факт, что база данных с информацией об Web-страницах формируется и
поддерживается в актуальном состоянии программой-роботом и, как следствие, имеет
гораздо больший объем по сравнению с системами каталогового типа.
Например, поисковая машина Altavista содержит в индексе порядка 550 миллионов
ссылок (по состоянию на 6.04.2001) [4]. Поиск в такой системе
обычно проводится по запросу, формулируемому пользователем и состоящему в
простейшем случае из набора ключевых слов. В последнее время
существует тенденция сортировки
содержимого индекса по категориям, что позволяет сузить область поиска и
использовать возможность поиска с уточнением
темы. |
|
ПРОСТОЙ ПОИСК. ОБОБЩЕННЫЕ ВОЗМОЖНОСТИ ФОРМИРОВАНИЯ ЗАПРОСА |
Как правило, поисковые машины поддерживают два режима: режим
простого поиска и режим расширенного поиска. Рассмотрим обобщенные
возможности формирования запроса в режиме простого поиска. Можно просто
вводить через пробел одно или несколько слов; поиск слов со всевозможными
окончаниями моделируется символом * в конце слова. Многие системы
позволяют искать словосочетания или фразу, для этого искомый фрагмент
необходимо заключить в кавычки. Возможно обязательное включение или
исключение определенных слов, реализуемое знаками + и – соответственно,
набираемыми вплотную к ключевому слову. Основная проблема поиска по примитивно составленному запросу
(в виде перечисления ключевых слов) заключается в том, что поисковая
машина найдет все страницы, на которых указанные слова встречаются в любой
части документа. В результате количество найденных страниц будет слишком
велико. Для улучшения качества поиска в режиме простого поиска допустимо
использование логических операторов и операторов, позволяющих ограничить
область поиска, а также выбор определенной категории документов из
представленного списка. |
|
ОПЕРАТОРЫ, УСТАНАВЛИВАЮЩИЕ ОТНОШЕНИЯ МЕЖДУ КЛЮЧЕВЫМИ СЛОВАМИ |
Большинство
поисковых систем используют следующие операторы, устанавливающие
отношения между ключевыми словами: -
AND (И) & – обязательное присутствие всех ключевых
слов; -
OR (ИЛИ) | – присутствие хотя бы одного из ключевых
слов; -
NOT (НЕ) ! – отсутствие ключевого
слова; -
NEAR (ОКОЛО) ~ – определенный интервал между ключевыми
словами. В качестве примера
приведем запрос, который можно сформулировать в поисковой машине
Altavista , для нахождения документов, в
которых присутствует слово интернет со всевозможными
окончаниями и словосочетание поиск работы, причем расстояние между
ними не должно превышать 10 слов: интернет* NEAR "поиск
работы" |
|
СПЕЦИАЛЬНЫЕ ОПЕРАТОРЫ |
Многие поисковые системы включают в свой язык составления
запросов специальные операторы, позволяющие проводить поиск в определенных
зонах документа (например, в его заголовке) или искать документ по
известной части его адреса. Полезной возможностью является поиск
документов в сети, ссылающихся на страницу с указанным вами адресом (URL). Таким способом
можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые
системы позволяют ограничить область поиска внутри указанного
домена. В качестве дополнительных специальных операторов можно
выделить: -
операторы поиска документов с определенным графическим
файлом; -
операторы ограничения по дате; -
операторы уточнения по количеству слов между указанными
ключевыми словами; -
операторы учета словоформы; -
операторы сортировки результатов (по релевантности,
свежести, старости). Примечание. К
сожалению, на сегодняшний день не существует стандарта на количество и
синтаксис поддерживаемых операторов для различных поисковых систем, однако
предпринимаются попытки разработать общий стандарт. На данном этапе
развития средств поиска пользователь, обращаясь к определенной поисковой
системе, непременно должен в первую очередь ознакомиться с ее правилами по
составлению запросов. Обычно на домашней странице присутствует ссылка Помощь (Help), по которой вы
сможете перейти к справочной информации. Сравните, какой вид имеет оператор поиска в заголовке в
поисковых системах Altavista, Яndex, Апорт: Altavista
(http://www.altavista.com): title:(выражение) Яndex
(http://www.yandex/ru): $title
(выражение) Апорт (http://www.aport.ru): title=(выражение) |
|
РАСШИРЕННЫЙ (ДЕТАЛЬНЫЙ, ADVANCED) ПОИСК |
Чтобы написать запрос с уточнением параметров, необходимо
знать язык составления запросов для конкретной поисковой машины. Это не
очень просто для пользователя, поэтому многие автоматические индексы
предлагают воспользоваться возможностями так называемого режима
расширенного поиска. Как правило, на начальной странице поисковой системы
есть ссылка Расширенный поиск
(Advanced
Search), реализующая переход к
соответствующему режиму составления запросов. Режим расширенного или детального запроса в разных системах
реализован индивидуально, но чаще всего это бланк, в котором упомянутые
выше операторы реализуются установкой соответствующих флажков или выбором
параметров из списка. Таким образом, у вас появляется возможность
составить качественный запрос, не прибегая к сложному языку и
многочисленным операторам. |
|
ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ ПОИСКА |
Рассмотрим способы
представления результатов поиска в поисковых машинах. Обычно количество
найденных документов превышает несколько десятков, а в отдельных случаях
может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется
список ссылок на документы по 5-10-15 единиц на странице с возможностью
перехода к следующей группе внизу страницы. Обязательно указывается
заголовок и URL (адрес) найденного документа, иногда
система указывает в процентах степень релевантности
документа. В описании документа чаще
всего содержится несколько первых предложений или выдержки из текста
документа с выделением ключевых слов. Как правило, указана дата обновления
(проверки) документа, его размер в килобайтах, некоторые системы
определяют язык документа и его кодировку (для русскоязычных
документов). |
|
ОБРАБОТКА РЕЗУЛЬТАТОВ ПОИСКА |
Что можно делать с полученными результатами? Если название и
описание документа соответствует вашим требованиям, можно немедленно
перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне,
чтобы иметь возможность далее анализировать результаты выдачи. Многие
поисковые системы позволяют проводить поиск в найденных документах, причем
вы можете уточнить ваш запрос введением дополнительных терминов. Если
интеллектуальность системы высока, вам могут предложить услугу поиска
похожих документов. Для этого вы выбираете особенно понравившийся документ
и указываете его системе в качестве образца. Однако, автоматизация
определения «похожести» – весьма нетривиальная задача, и зачастую эта
функция может не оправдать ваши надежды [5]. Некоторые поисковики
позволяют провести пересортировку результатов. Стандартно результаты
поиска сортируются по релевантности, однако затем вы можете выбрать другой
способ сортировки (например, по свежести, чтобы вверху списка были
показаны самые новые документы, найденные по вашему запросу). Можно
сохранить результаты поиска в виде файла на локальном диске для
последующего изучения в автономном режиме. |
|
АДРЕСА ПОПУЛЯРНЫХ ПОИСКОВЫХ МАШИН |
Приведем адреса некоторых наиболее популярных поисковых машин
за рубежом и в России. Зарубежные поисковые машины: -
Altavista
(http://www.altavista.com); -
Go (Infoseek)
(http://www.go.com); -
Google
(http://www.google.com); -
Excite
(http://www.excite.com); -
HotBot
(http://www.hotbot.com); -
Nothern Light
(http://www.northernlight.com). Российские поисковые машины: -
Яndex
(http://www.yandex.ru); -
Рамблер (http://www.rambler.ru); -
Апорт (http://www.aport.ru). |
|
ПРИМЕР ПОИСКА В ПОИСКОВОЙ МАШИНЕ РАМБЛЕР |
Рассмотрим поиск по запросу российские поисковые системы в
поисковой машине портала Рамблер (http://www.rambler.ru). На домашней
странице поисковой системы (рис. 5) находится бланк ввода запроса для
простого режима поиска. Обратите внимание на ссылку Расширенный поиск, реализующую
переход к режиму расширенного поиска и ссылку Помощь для вызова справки о
правилах составления запросов. Одним из компонентов портала является система добровольного
рейтинга сайтов/страниц по посещаемости Top100. Эта система дает
возможность владельцам серверов определить свою популярность на основе
сравнительной оценки с другими серверами. На страницах, владельцы которых
желают участвовать в рейтинговой системе, размещается специальный счетчик,
фиксирующий сведения о посетителях данной страницы. На основании этих
данных составляются базовые рейтинги сайтов по категориям, и посетитель
Рамблера может с ними ознакомиться. [5]. Составим простейший тестовый запрос, состоящий из трех слов российские поисковые системы. В
результате Рамблер нашел 75562 документа на 11041 сайте (рис. 6). Для
каждой найденной страницы мы видим заголовок, начало текста, размещенного
на странице, дату последнего обновления, размер файла, кодировку и URL
документа. Для уточнения результатов поиска есть возможность установить
переключатель в найденном в
бланке запроса, ввести в поле ввода уточняющие термины и провести поиск
среди найденных документов. Кроме того, можно обратиться к поисковой
системе с просьбой найти похожие страницы, выбрав ссылку Найти похожие, размещенную под
описанием избранного вами документа. |
|
|
|
|
|
|
|
РЕЖИМ РАСШИРЕННОГО ПОИСКА В РАМБЛЕРЕ |
По ссылке Расширенный
поиск можно перейти к соответствующему режиму поиска. Данный режим
предполагает возможность составления достаточно сложного запроса без
использования операторов. Вы видите бланк ввода запроса и ряд
переключателей и полей, позволяющих уточнить параметры поиска. Например,
нам нужно найти документы со словами российские поисковые системы в
названии страницы, с ограничением расстояния между ключевыми словами и
сортировкой результатов по дате (рис. 7). |
|
|
|
|
|
|
|
|
С установленными ограничениями Рамблер нашел всего 77
документов, что значительно облегчает дальнейший анализ полученных
результатов (рис. 8). |
|
МЕТАПОИСКОВЫЕ СИСТЕМЫ (ПОИСКОВЫЕ СЛУЖБЫ) |
Заметим, что различные поисковые системы описывают разное
количество источников информации в Internet. Поэтому нельзя ограничиваться
поиском только в одной из поисковых систем. Познакомимся с инструментами
поиска, которые не формируют собственный индекс, но умеют использовать
возможности других поисковых систем. Это метапоисковые системы (поисковые
службы, Metacrawlers), способные послать
запрос пользователя одновременно нескольким поисковым серверам, отобрать
ограниченное число самых релевантных источников информации, которые, как
правило, размещены вверху результирующего списка, затем объединить
полученные результаты и представить их пользователю в виде документа со
ссылками. Возможности расширенного поиска в таких системах означают выбор
конкретных поисковых систем для проведения поиска. Адреса известных метапоисковых систем: -
MetaCrawler
(http://www.metacrawler.com); -
Search.com
(http://www.search.com); -
Dogpile
(http://www.dogpile.com). |
|
ПРОГРАММЫ УСКОРЕННОГО ПОИСКА. ОПРЕДЕЛЕНИЕ |
Наконец, рассмотрим
последний в приведенной классификации инструмент поиска – программы
ускоренного поиска или поисковые агенты (Search Agent или Searchbots) [7]. Программа ускоренного
поиска – это приложение,
устанавливаемое на компьютере пользователя и
способное: -
посылать запросы к
нескольким поисковым серверам; -
сортировать результаты
поиска по релевантности; -
удалять
дубликаты; -
проверять наличие
документов в сети. Удобство
использования программ данного типа очевидно, ведь для вас нет
необходимости устанавливать связь с многочисленными поисковыми системами и
отправлять запросы к каждой индивидуально. Достаточно запустить на своем
персональном компьютере программу поисковый агент, составить запрос (можно
использовать некоторые уточнения, например, поиск в заголовках искомых
страниц) и отправить его сразу к нескольким популярным поисковым системам,
предварительно выбранным из встроенного списка. Некоторые коммерческие
версии программ ускоренного поиска допускают создание собственного списка
поисковиков. Также предварительно можно установить максимальное число
ссылок, получаемых с каждой системы. Приведем
названия некоторых популярных программ ускоренного поиска и адреса их
разработчиков в Internet: -
WebFerret
(http://www.ferretsoft.com, http://www.zdnet.com/ferret); -
Copernic (http://www.copernic.com); -
Subject Search Spider (SSSpider)
(http://www.kryltech.com). Таким
образом, используя метапоисковые системы и поисковые агенты, можно
проводить обзор самых популярных и релевантных источников информации,
проиндексированных в различных поисковых системах. |
|
ПАРАМЕТРЫ ЭФФЕКТИВНОСТИ ПОИСКА ИНФОРМАЦИИ |
После подробного изучения основных возможностей инструментов
обратимся к проблеме эффективности поиска. Основными параметрами
эффективности поиска являются: -
полнота поиска
как отношение числа найденных документов к общему числу релевантных
документов; -
точность поиска
– отношение числа релевантных документов к общему числу полученных
документов; -
актуальность ссылок
на документы -
существование найденных документов в сети в настоящий
момент; -
скорость
поиска. |
|
ФАКТОРЫ, ВЛИЯЮЩИЕ НА ЭФФЕКТИВНОСТЬ ПОИСКА |
Итак, мы выяснили, что в
Internet существуют различные инструменты поиска,
обладающие разными функциональными возможностями. Качество поиска, таким
образом, зависит в первую очередь от параметров конкретной поисковой
системы, например, от размеров индекса, от способа поиска (уточнение тем
или поиск по запросу) и т.д. Далее, работая с конкретной поисковой
системой, нужно иметь представление о методах составления запросов, знать
необходимые операторы. Таким образом, можно
выделить следующие факторы, влияющие на эффективность поиска
[8-10]: -
свойства и возможности
поисковой системы; -
качество формулировки
запроса пользователем. |
|
СРАВНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ ПОИСКОВЫХ СИСТЕМ |
Каким образом можно оценить качество поискового инструмента?
Поисковые системы обычно сравнивают по следующим параметрам [4,
8-10]: -
Количество
проиндексированных страниц (объем индекса). -
Период обновления
индекса. Этот показатель влияет на такой параметр как актуальность
найденных ссылок. Чем чаще обновляется индекс, тем реже в результатах
поиска будут встречаться устаревшие ссылки. -
Задержка перед
пропиской. Данный параметр указывает на временной интервал перед
занесением описания Web-страницы в индекс после
просьбы ее автора. -
Количество
поддерживаемых операторов. -
Сортировка по
категориям. -
Стандартный
оператор, объединяющий по умолчанию несколько ключевых слов. Если
стандартным оператором является оператор И, поисковая машина автоматически
будет искать документы, на которых обязательно будут присутствовать все
введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены
документы со всеми ключевыми словами и с каждым по
отдельности. -
Поиск точной
фразы. -
Поиск по шаблону
(поиск слов с различными окончаниями). -
Учет словоформ.
В случае автоматического режима учета словоформ система будет искать в
документах слово со всеми его изменениями. -
Чувствительность к
заглавной букве. Если система не различает заглавные и строчные буквы,
результаты поиска будут менее качественными. -
Форма представления
результатов. -
Дополнительные
возможности: поиск статей в группах новостей, людей, организаций,
мультимедийных файлов, и т.д. |
|
ТЕХНОЛОГИИ ПОИСКА ИНФОРМАЦИИ В INTERNET |
Теперь рассмотрим, как лучше подготовиться пользователю к
составлению запроса. Прежде всего, необходимо провести всесторонний
лексический анализ информации, которую вы собираетесь искать. Затем
желательно составить набор ключевых слов (при необходимости, на нескольких
языках) в виде отдельных терминов и словосочетаний, специфичных для вашей
предметной области [8]. Далее необходимо исследовать различные поисковые
инструменты. Ваши действия: -
выбор поискового инструмента; -
точная формулировка запросов с использованием операторов,
поддерживаемых данным поисковым инструментом; -
отправка тестовых запросов; -
анализ результатов поиска (по количеству и релевантности
ссылок); -
при необходимости, корректировка запроса; -
повторный поиск; -
… |
|
ПРИЕМЫ ЭФФЕКТИВНОГО ПОИСКА |
Исходя из
вышеизложенного, можно выделить следующие приемы эффективного
поиска: -
Поиск информации общего
характера в поисковых системах-каталогах. В каталогах вы, как правило,
найдете специализированные серверы в искомой
области. -
Поиск узкоспециальной
информации в поисковых машинах. Для проведения более обширного поиска явно
недостаточно использовать только системы-каталоги с ограниченным числом
описанных ресурсов. Кроме того, узкоспециальная информация в каталогах
может просто отсутствовать. Поэтому необходимо проводить поиск подобной
информации в поисковых машинах, обладающих индексами большого
объема. -
Использование
операторов или бланка расширенного запроса для сужения области поиска. Для
проведения качественного поиска необходимо ознакомиться с языком запросов
конкретной поисковой машины. Эффективным и простым способом решения
проблемы составления качественного запроса является использование режима
расширенного поиска. -
Использование функции
поиска среди найденных ресурсов. Большинство поисковых систем поддерживают
возможность поиска внутри полученных результатов. Как правило, для этого
нужно включить специальный флажок Искать в найденном и ввести
дополнительные слова для повторного поиска среди найденных по запросу
страниц. -
Использование функции
поиска похожих документов для нахождения релевантных страниц по выбранному
вами образцу. -
Использование
метапоисковых систем и программ ускоренного поиска информации. Для
получения общего обзора документов целесообразно использовать возможности
метапоисковых систем или программ ускоренного поиска. Напоминаем, данные
инструменты поиска отправляют ваш запрос сразу нескольким поисковым
системам и от каждой системы получают несколько самых релевантных
ссылок. -
Просмотр раздела
Ссылки на специализированных сайтах. Авторы многих
специализированных Web-узлов накапливают свои коллекции ссылок по
тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных
источников, сэкономив время, затрачиваемое на самостоятельный поиск с
использованием рассмотренных выше инструментов. -
Поиск ответов на
вопросы в группах новостей. При желании можно обратиться с конкретным
вопросом о помощи в специализированную группу новостей. Найти нужную
группу можно, используя специальные инструменты поиска, которые мы
рассмотрим далее. -
Подписка на
специализированные списки рассылки. После оформления подписки на
специализированный список рассылки, вы будете получать по электронной
почте новую информацию по выбранной тематике, а также задавать вопросы
вашим коллегам по подписке. |
|
ПОИСК СТАТЕЙ В ГРУППАХ НОВОСТЕЙ |
Обсудим проблему поиска статей в группах новостей.
Инструментами поиска в данном случае могут являться некоторые поисковые
машины WWW,
которые индексируют не только пространство WWW, но и статьи в
телеконференциях, и имеют специальный режим поиска именно в этом ресурсе.
Поиск среди сообщений групп новостей, опубликованных за последние полгода,
поддерживает, например, поисковый сервер Google (http://groups.google.com). Поисковые системы WWW весьма оперативно
индексируют группы новостей и содержат информацию о статьях, реально
существующих в сети. Для поиска в архивах новостей существуют
специализированные системы, самой известной из которых являлась система Deja (http://www.deja.com). В феврале 2001 года
компания Google
Inc.
объявила о приобретении системы Deja.com's Usenet Discussion Service. Так
что теперь пользователи поисковой системы Google по адресу http://groups.google.com могут проводить поиск также в
подключенном архиве системы Deja, который содержит свыше 500
миллионов сообщений, индексируемых с 1995 года. |
|
ПОИСК ФАЙЛОВ |
Теперь рассмотрим инструменты, позволяющие проводить поиск
файлов. Многие поисковые системы WWW оказывают услугу поиска
мультимедийных файлов (Altavista, Aport, …). Для этого нет
необходимости знать специальные операторы, а достаточно перейти с домашней
страницы по ссылкам Картинки
(Images), MP3/Audio или Video к специальному режиму
поиска. Поиск проводится по возможному имени файла или по тексту в
комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя
файла, например, файл с изображением орла может называться eagle.gif. Или догадаться, что фото
Билла Гейтса будет иметь соответствующую подпись. Что касается поиска программного обеспечения, во всемирной
паутине существуют поисковые Web-серверы с коллекциями
условно-бесплатного ПО; некоторые из них специализируются по поиску
программного обеспечения для Internet, другие предлагают найти приложения
для конкретной операционной системы. Эти системы в конечном итоге приведут
вас к конкретному FTP-серверу, с которого и можно
скачать искомый программный продукт. Следует упомянуть серверы Archie, также
оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться
Web-серверами
гораздо удобнее. Адреса популярных серверов для поиска программного обеспечения
и мультимедийных файлов: -
Коллекция TuCows
(http://www.tucows.com); -
Коллекция условно-бесплатного ПО CNET
Shareware.com (http://shareware.cnet.com); -
Система поиска ПО для различных платформ CNET
Download.com (http://download.cnet.com); -
Система поиска ПО, компьютерных игр и мультимедийных файлов
Jumbo
(http://www.jumbo.com); -
Система поиска мультимедийных файлов FAST
Multimedia
Search
(http://multimedia.alltheweb.com); -
Российская файловая поисковая система FILES.RU (http://www.files.ru). |
|
ПОИСК АДРЕСНОЙ ИНФОРМАЦИИ ОБ ОРГАНИЗАЦИЯХ И ЛЮДЯХ |
Рассмотрим поисковые инструменты для поиска адресной
информации. Различают два способа поиска: Белый (White) и Желтый (Yellow) поиск. White-поиск – поиск адресной
информации по заранее известному имени адресата (имя человека или название
организации). Yellow-поиск – поиск имени или
названия и адресной информации по дополнительным признакам (по роду
деятельности, по географическому признаку). Обычно системы Yellow Pages фактически сразу включают в себя и
White Pages – у найденного адресата сразу видны его телефон и почтовый
адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в
алфавитном списке своих абонентов (white-поиск). С другой стороны, White
pages также содержат элементы yellow-поиска – кроме задания собственного
имени, они обычно позволяют указать название города, штата и другие
сужающие поиск данные (что необходимо в случае многих однофамильцев).
Возможно, именно поэтому многие on-line телефонные справочники,
выполняющие фактически white-поиск, называют себя Yellow
pages. Ниже приведены адреса некоторых Web-систем для поиска адресной
информации о людях и организациях. Поиск людей: -
Поиск людей на
Yahoo (http://people.yahoo.com) -
Система WhoWhere
(http://www.whowhere.com) -
Система Bigfoot (http://www.bigfoot.com). Поиск организаций: -
раздел Желтые
страницы (Yellow
pages) на поисковых
системах; -
http://www.yellowpages.com – специализированный
сервер для поиска в США и других странах. |
|
ПРИМЕНЕНИЕ ПОИСКОВЫХ СИСТЕМ В УЧЕБНОМ ПРОЦЕССЕ |
Основные направления применения поисковых систем в учебном
процессе: -
поиск образовательных порталов; -
поиск адресов представительств образовательных учреждений в
WWW; -
поиск учебных пособий, энциклопедий,
справочников; -
поиск учебных on-line курсов; -
поиск учебного программного
обеспечения. |