Реферат

«Информационные поисковые системы в Интернет.»

  • 24 страниц
Содержание

Введение 3

1 Поисковые системы 4

1.1 Как работают механизмы поиска 4

1.2 Сравнительный обзор поисковых систем 7

2 Поисковые роботы 11

2.1 Использование поисковых роботов 11

2.1.1 Статистический Анализ 11

2.1.2 Обслуживание гипертекстов 12

2.1.3 Зазеркаливание 12

2.1.4 Исследование ресурсов 13

2.1.5 Комбинированное использование 14

2.2 Повышение затрат и потенциальные опасности при использовании поисковых роботов 14

2.2.1 Сетевой ресурс и загрузка сервера 14

2.2.2 Обновление документов 15

2.3 Роботы / агенты клиента 16

2.3.1 Плохие программные реализации роботов 17

3 Поисковые системы российского Интернет 19

Заключение 23

Список использованной литературы 24

Введение

Основные протоколы, используемые в Интернет, не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

Фрагмент работы

1.1 Как работают механизмы поиска

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Заключение

Поисковая система - автоматическая система, ресурсы (сайты/сервера/порталы) заносятся в базу либо роботом - автоматически обнаруживаются в Интернет, либо пользователем (к примеру веб-мастером сайта). При этом, как правило, ее услуги бесплатны, база огромна, а добавляемый сайт не просматривается модератором при добавлении в поисковую систему.

Поисковые системы состоят из трех компонент:

- агент (паук или кроулер), который перемещается по Сети и собирает информацию;

- база данных, которая содержит всю информацию, собираемую пауками;

- поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов.

На сегодняшний день в российском сегменте интернет насчитывается более 50 поисковых систем и каталогов. Для удобной работы, поиска информации и регистрации сайта в сети в общем случае достаточно обратиться к крупным серверам, хотя малые так же имеют свои приемущества и иногда могут оказаться не менее полезны.

Список литературы

1. Тихонов В. Поисковые системы в сети Интернет // h**t://w*w.citforum.r*/internet/search/searchsystems.shtml#1

2. Храмцов П. Поиск и навигация в Internet // h**t://w*w.osp.r*/cw/1996/20/31.htm

3. Обзор поисковых систем и каталогов Рунета // h**t://w*w.4site.net.r*/Lit/lit-p.html

4. Аликберов Андрей Несколько слов о том, как работают роботы поисковых машин // h**t://w*w.citforum.r*/internet/search/art_1.shtml

5. Пасько В. Эффективная работа в Интернете. СПб.: «Питер», 2006.

6. Холмогоров В. Поиск в Интернете и сервисы Яндекс. СПб.: «Питер», 2006.

Нужна похожая работа?
Закажите авторскую работу по вашему заданию.
  • Цены ниже рыночных
  • Удобный личный кабинет
  • Необходимый уровень антиплагиата
  • Прямое общение с исполнителем вашей работы
  • Бесплатные доработки и консультации
  • Минимальные сроки выполнения

Мы уже помогли 24535 студентам

Средний балл наших работ

  • 4.89 из 5
Узнайте стоимость
написания вашей работы
Популярные услуги
Дипломная на заказ

Дипломная работа

от 8000 руб.

срок: от 6 дней

Курсовая на заказ

Курсовая работа

от 1500 руб.

срок: от 3 дней

Отчет по практике на заказ

Отчет по практике

от 1500 руб.

срок: от 2 дней

Контрольная работа на заказ

Контрольная работа

от 100 руб.

срок: от 1 дня

Реферат на заказ

Реферат

от 700 руб.

срок: от 1 дня

682 автора

помогают студентам

23 задания

за последние сутки

10 минут

среднее время отклика