скачать рефераты
  RSS    

Меню

Быстрый поиск

скачать рефераты

скачать рефератыРеферат: Поиск информации в www

Реферат: Поиск информации в www

КУРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ

КАФЕДРА ИНФОРМАТИКИ И ТСО

КУРСОВАЯ РАБОТА

“ ПОИСК ИНФОРМАЦИИ В WWW ”

выполнил: ст-нт ФМФ-56

Разиньков А.Н.

Руководитель: Ежова Т.В.

КУРСК-2002

Содержание:

1. Поиск информации в www…………………………………………………………1

 

1.1.Основы поисковых служб…………………………………………………………………1

              Поисковые каталоги. Поисковые указатели (индексы). Сбор информации поисковыми  роботами. Индексация ресурсов. Исполнение запроса клиента. Сравнение поисковых каталогов и указателей. От чего зависит качество поиска. Гибридные системы. Метапоисковые системы. Порталы. Рейтинговые службы.

    1.2.Основные поисковые системы…………………………………………………8

           AltaVista. Ask Jeeves. Direct Hit. Excite. FAST Search. GO/Infoseek. GoTo.

            Google. HotBot. Inktomi. LookSmart. Lycos. MSN Search. Netscape Search.

            Northern Light. Open Directory. RealNames. WebCrawler. Yahoo.

    

    1.3. Отечественные поисковые системы……………………………………………11

            Aport. Атрус(@Rus). Rambler. Яndex.

     

1.4. Приемы простого поиска информации в www………………………………...13

Ловушка для начинающих. Сложение наоборот. Арифметика вычитания.

Применим джокера. Контекстный поиск. Роль прописных букв. Поиск по

заголовкам. Поиск Web-узлов. Поиск URL-адресов. Поиск ссылок

1.5.    Средства расширенного поиска…………………………………………………18

Команда OR. Команда  AND. Команда NEAR. Вложение команд.

 

1.6.    Выбор поисковой службы……………………. ………………………………………20

Как проверить незнакомую поисковую службу. Реферативный поиск.

Углубленный поиск. Специальный поиск. Выводы и рекомендации.

2.1      Технология и результат поиска……………………..…………………………22

Цели поиска: модель обучаемого. модель обучения. нейромодель обучаемого.

                       нейромодель обучения. нейросетевая модель обучаемого.

                       нейросетевая модель обучения.

Поиск информации в WWW

формацию или услугу в WWW, их надо, прежде всего, разыскать, а поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.

Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред­положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интер-нет-2, и все будет по-другому.

Для поиска информации в Сети используются специальные поисковые службы. Обычно поисковая служба — это компания, имеющая свой сер­вер, на котором работает некая поисковая система. Услуги абсолютного большинства поисковых служб бесплатны, но, тем не менее, по темпам роста сегодня это самый эффективный бизнес в мире. Всего за несколько лет такие службы как Yahoo!, Alta Vista, Inktomi и некоторые другие разви­лись от лабораторных проектов с бюджетом в десяток-другой тысяч дол­ларов до компаний, стоимость которых составляет 10-15 миллиардов долларов. Такого темпа приращения капитала мир еще не знал, особенно для бесплатных (для конечного пользователя) услуг.

При этом интересно отметить, что ниша бизнеса далеко не освоена, и ниже мы увидим, как буквально в считанные месяцы из хорошей идеи «с нуля» рождаются новые гиганты.

Основы поисковых служб

Сегодня пользователь World Wide Web оказывается в той же ситуации, что ii читатель крупной библиотеки. Чем больше фонды библиотеки, тем труднее найти именно ту книгу, которая сейчас нужна. Для упрощения поиска в библиотеке существуют каталоги: систематический, алфавитный, предметный и другие. Существуют и специализированные каталоги, напри­мер каталоги новых поступлений.

В Сети поиск обеспечивают специальные поисковые службы. Умение пользоваться ими, собственно говоря, и составляет умение пользоваться Интернетом. Все поисковые системы WWW основаны на гиперссылках. Обращаясь к поисковой службе, мы формулируем запрос, в котором фор­мально описываем то, что хотим найти. Проведя нужные операции, служба формирует Web-документ, состоящий из гиперссылок, ведущих к ресур­сам WWW, соответствующим нашему запросу. Какой из этих гиперссылок м ы воспользуемся — дело наше.

Несмотря на то, что результат всегда един (клиент получает список реко­мендованных гиперссылок), принцип действия у разных поисковых служб может быть различным. Ниже мы рассмотрим, как классифицируются поисковые службы по типам предоставляемых услуг, а также по способам формирования своих ресурсов. Последнее очень важно для эффективной работы не только пользователей, но и Web-мастеров. Пользователи должны учитывать способ формирования баз данных, чтобы знать, на что они могут рассчитывать при поиске информации, а Web-мастера должны это знать, чтобы добиться наилучшего представления своих ресурсов в основных поис­ковых службах мира.

Поисковые каталоги

Поисковые каталоги похожи на предметные каталоги общественных биб­лиотек. На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список Web-ресур­сов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) Она предоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охва­тывает чуть более тысячной доли всего Web-пространства.

Основным недостатком и, в то же время, достоинством поисковых катало­гов является «человеческий фактор». Данные, которые заносятся в ката­лог, проходят «ручную обработку». Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный инте­рес. Кроме собственных редакторов служба использует и информацию, по­ставляемую Web-мастерами. Так, например, теоретически любой владелец Web-страницы может самостоятельно заполнить положенную анкету и направить ее в адрес службы. Правда, гарантии, что страница будет вклю­чена в каталог Yahoo!, это не дает, поскольку служба не замусоривает свои каталоги ссылками на страницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие на давно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверке актуальности храня­щихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к фор­мированию своих каталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсов крайне мал.

Другой подход к формированию каталога демонстрирует поисковая служба Open Directory (dmoz.org). В качестве источника для своих ресурсов она при­влекает пользователей WWW, которые на добровольной основе могут обо­зревать понравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них на центральном сервере службы. Поскольку число добро­вольных помощников может быть очень большим, у этой службы есть все шансы перекрыть успех Yahoo!. Но принцип добровольности не гарантирует качественности работы, поэтому каталоги, равные Yahoo по качеству, по-видимому, появятся еще не скоро. Однако есть и другие подходы, основанные, например, на 5МАНГ-технологии, и мы их тоже рассмотрим.

Поисковые указатели (индексы)

11ринцип действия поискового указателя похож на принцип действия пред­метного каталога библиотеки. Пользователь формирует запрос с помощью ключевых слов, выражающих объект его поиска, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова. Ксли мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так:

+Вольта +Бонапарт или так:

Вольта AND Бонапарт

Основное отличие поисковых указателей от поисковых каталогов состоит is полной автоматизации всех этапов работы. Здесь отсутствует «челове­ческий фактор», и потому количество Web-страниц, к которым ведет поис­ковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следую­щий рубеж (300-миллионный) будет взят в 2000 г.

Сбор информации поисковыми роботами

Поисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая спо­собна путешествовать по Web-узлам Интернета, просматривать Web-стра­ницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поис­ковыми роботами» (сокращенно «ботами»), «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспе­риментальные программы для мониторинга Сети.

Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отда­ленные закоулки WWW.

Индексация ресурсов

Второй этап работы поисковой системы — индексация. Собрать на цен­тральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс пре­образования данных из той формы, в которой они хранятся на Web-стра­ницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, кото­рую называют поисковым указателем (индексом).

У каждой поисковой системы свои приемы и методы индексации. В част­ности, перед индексацией большинство систем очищают документ от заре­зервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только короткие слова могут быть зарезервированными. Очень распрос­траненные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно.

Специализированные поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг (books), то слово book для нее может считаться зарезервиро­ванным.

На этапе подготовки к индексации может происходить нормализация слов (stemming) за счет отбрасывания суффиксов и окончаний. После такой «зачистки» фраза типа «Мы с братом любим ловить рыбу» превращается в ' нечто похожее на «брат люб лов рыб». Исходный документ может быть най­ден при поиске по ключевым словам «брат», «любовь», «ловить», «рыба», но никогда по словам «мы» или «с».

Некоторые системы производят нормализацию всегда. Ряд систем, бази­рующихся на службе Inktomi (см. ниже) могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая, как будет показано ниже, активно используется для контекстного поиска.

На основе «зачищенного» документа готовится индекс. Индекс — это осо­бая база данных, созданная специальным образом, чтобы ускорить поиск. Существует множество методов индексации. Разумеется, они не разглаша­ются. Как и поисковый робот, алгоритм индексации составляет коммер­ческую тайну поисковой службы, поэтому в качестве примера мы приведем лишь простейший тип индекса — так называемый обратный файл.

Суть обратного файла состоит в том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а затем для каждого слова записывается группа чисел, указывающих на то, в каких документах оно встречается, насколько часто, а также кое-какая служебная информация.

Исполнение запроса клиента

Третий этап — ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и немед­ленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом.

Система анализирует ключевые слова, которые клиент использовал в зап­росе. С ними производятся те же операции освобождения от зарезервиро­ванных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поис­ковых систем происходят примерно одинаково, но самая последняя опе­рация, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования результирующего списка.

Если найдено очень много ссылок на ресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесь важно, какие ссылки дать в начале списка, а какие — в конце, то есть, надо вводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговые системы. При исчис­лении рейтинга учитывается множество параметров. За некоторые начис­ляются положительные баллы, а за некоторые — наоборот штрафные. Положительный рейтинг начисляется, в частности, при следующих обсто­ятельствах:

• если разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);

• если они расположены близко к началу страницы;

• если эти слова присутствуют в заголовке страницы;

• если Web-страница имеет иллюстрацию, альтернативный текст кото­рой тоже содержит слова, введенные пользователем.

Лучшие поисковые системы недавно ввели новый подход к рейтингованию. Они учитывают количество ссылок в проиндексированном простран­стве Web, ведущих к данному ресурсу. Это естественно, ведь чем больше публикаций ссылаются на данную страницу, тем она популярнее и тем выше вероятность того, что она будет полезной автору запроса. В традици­онном библиотечном деле такой подход известен. Например, в США давно издается многотомный ежегодный «Индекс цитирования» (Citational Index), в котором каталогизируются ссылки разных авторов на первоис­точники. Это непростой технически, но очень полезный для клиентов метод индексации ресурсов.

К современным относятся и коммерческие хитрости. Относительно недавно некоторые поисковые системы (в том числе и такая известная, как Alta Vista) начали повышать рейтинг тем, кто готов за это платить. Такой под­ход выглядит не очень красиво, но с точки зрения владельцев поисковых систем оправдан извечным тезисом «заботы о потребителе». Они заявляют, что для потребителя ценность информации на странице солидной фирмы, готовой нести расход на свою рекламу в Сети, все-таки выше, чем ценность доморощенной страницы никому не известного студента. Возможно, что они и правы. Во всяком случае тот, кто заплатил деньги за рейтингование своей страницы, наверное будет больше уделять внимания ее качеству, чем тот, кто сделал ее впопыхах и пристроил на первом попавшемся бес­платном сервере.

Сравнение поисковых каталогов и указателей

У каждого из двух основных типов поисковых служб есть достоинства и недостатки. Поисковые каталоги формируются вручную с помощью живых людей. Поэтому, как правило, если мы находим в них нужный нам ресурс, то этот ресурс — один из лучших в Сети. Он не обязательно самый луч­ший и, может быть, лишь входит в первую двадцатку, но он явно не слу­чаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога, имеющие солидное образование в боль­шинстве областей науки, техники и культуры, не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее и тем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный в разных местах или проиндексированный в разное время. В общем, если надо быс­тро найти лучший источник по какой-то теме, надо начинать поиск с поис­кового каталога.

Недостатком поисковых каталогов является их слабое знание о подлин­ных ресурсах WWW, которое с каждым днем падает в относительном изме­рении. Как мы уже говорили, крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанных ресурсов до мил­лиона, в то время как каждый год появляются сотни миллионов новых Web-страниц.

Страницы: 1, 2, 3, 4, 5


Новости

Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

  скачать рефераты              скачать рефераты

Новости

скачать рефераты

© 2010.