Новейший самоучитель по работе в ИНТЕРНЕТ |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6. Поиск информации в WWW 6. Поиск информации в WWWЧтобы получить информацию или услугу в WWW, их надо, прежде всего, разыскать, а поиск информации - непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц. Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP-адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому. Для поиска информации в Сети используются специальные поисковые службы. Обычно поисковая служба - это компания, имеющая свой сервер, на котором работает некая поисковая система. Услуги абсолютного большинства поисковых служб бесплатны, но, тем не менее, по темпам роста сегодня это самый эффективный бизнес в мире. Всего за несколько лет такие службы как Yahoo!, Alta Vista, Inktomi и некоторые другие развились от лабораторных проектов с бюджетом в десяток-другой тысяч долларов до компаний, стоимость которых составляет 10-15 миллиардов долларов. Такого темпа приращения капитала мир еще не знал, особенно для бесплатных (для конечного пользователя) услуг. При этом интересно отметить, что нища бизнеса далеко не освоена, и ниже мы увидим, как буквально в считанные месяцы из хорошей идеи "с нуля" рождаются новые гиганты.
Основы поисковых службСегодня пользователь World Wide Web оказывается в той же ситуации что и читатель крупной библиотеки. Чем больше фонды библиотеки, тем труднее найти именно ту книгу, которая сейчас нужна. Для упрощения поиска в библиотеке существуют каталоги: систематический, алфавитный, предметный и другие. Существуют и специализированные каталоги, например каталоги новых поступлений.
Несмотря на то, что результат всегда един (клиент получает список рекомендованных гиперссылок), принцип действия у разных поисковых служб может быть различным. Ниже мы рассмотрим, как классифицируются поисковые службы по типам предоставляемых услуг, а также по способам формирования своих ресурсов. Последнее очень важно для эффективной работы не только пользователей, но и Web-мастеров. Пользователи должны учитывать способ формирования баз данных, чтобы знать, на что они могут рассчитывать при поиске информации, а Web-мастера должны это знать, чтобы добиться наилучшего представления своих ресурсов в основных поисковых службах мира.
Поисковые каталогиПоисковые каталоги похожи на предметные каталоги общественных библиотек. На начальной странице поискового каталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, потом подкатегорию, и так далее, пока не получим конкретный список Web-ресурсов, рекомендованных для просмотра. Крупнейшим поисковым каталогом мира сегодня считается поисковая система Yahoo! (www.yahoo.com) (рис. 6.1). Она предоставляет примерно 1 млн ссылок к ресурсам WWW, то есть охватывает чуть более тысячной доли всего Web-пространства. Основным недостатком и, в то же время, достоинством поисковых каталогов является "человеческий фактор". Данные, которые заносятся в каталог, проходят "ручную обработку". Сегодня на Yahoo! работают до 150 редакторов, ежедневно просматривающих Web-пространство в поисках наиболее ценных ресурсов по темам, вызывающим общественный интерес. Кроме собственных редакторов служба использует и информацию, поставляемую Web-мастерами. Так, например, теоретически любой владелец Web-страницы может самостоятельно заполнить положенную анкету и направить ее в адрес службы. Правда, гарантии, что страница будет включена в каталог Yahoo!, это не дает, поскольку служба не замусоривает свои каталоги ссылками на страницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие на давно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверке актуальности хранящихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к формированию своих каталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсов крайне мал. Другой подход к формированию каталога демонстрирует поисковая служба Open Directory (dmoz.org). В качестве источника для своих ресурсов она привлекает пользователей WWW, которые на добровольной основе могут обозревать понравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них на центральном сервере службы. Поскольку число добро вольных помощников может быть очень большим, у этой службы есть все шансы перекрыть успех Yahoo!. Но принцип добровольности не гарантирует качественности работы, поэтому каталоги, равные Yahoo по качеству, по-видимому, появятся еще не скоро. Однако есть и другие подходы, основанные, например, на SMART-технологии, и мы их тоже рассмотрим.
Поисковые указатели (индексы)Принцип действия поискового указателя похож на принцип действия предметного каталога библиотеки. Пользователь формирует запрос с помощью ключевых слов, выражающих объект его поиска, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова. Если мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так: +Вольта +Бонапарт или так: Вольта AND Бонапарт Основное отличие поисковых указателей от поисковых каталогов состоит в полной автоматизации всех этапов работы. Здесь отсутствует "человеческий фактор", и потому количество Web-страниц, к которым ведет поисковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следующий рубеж (300-миллионный) будет взят в 2000 г.
Сбор информации поисковыми роботамиПоисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая способна путешествовать по Web-узлам Интернета, просматривать Web-страницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют "червяками", "пауками", "поисковыми роботами" (сокращенно "ботами"), "поисковыми машинами", "краулерами" и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспериментальные программы для мониторинга Сети. Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отдаленные закоулки WWW.
Индексация ресурсовВторой этап работы поисковой системы - индексация. Собрать на цен тральном сервере образы сотен миллионов Web-страниц - это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, - совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс пре образования данных из той формы, в которой они хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, которую называют поисковым указателем (индексом). У каждой поисковой системы свои приемы и методы индексации. В частности, перед индексацией большинство систем очищают документ от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только короткие слова могут быть зарезервированными. Очень распространенные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно. Специализированные поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг (books), то слово book для нее может считаться зарезервированным. На этапе подготовки к индексации может происходить нормализация слов (stemming) за счет отбрасывания суффиксов и окончаний. После такой "зачистки" фраза типа "Мы с братом любим ловить рыбу" превращается в нечто похожее на "брат люб лов рыб". Исходный документ может быть найден при поиске по ключевым словам "брат", "любовь", "ловить", "рыба", но никогда по словам "мы" или "с". Некоторые системы производят нормализацию всегда. Ряд систем, базирующихся на службе Inktomi (см. ниже) могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая, как будет показано ниже, активно используется для контекстного поиска. На основе "зачищенного" документа готовится индекс. Индекс - это особая база данных, созданная специальным образом, чтобы ускорить поиск. Существует множество методов индексации. Разумеется, они не разглашаются. Как и поисковый робот, алгоритм индексации составляет коммерческую тайну поисковой службы, поэтому в качестве примера мы приведем лишь простейший тип индекса - так называемый обратный файл. Суть обратного файла состоит в том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а затем для каждого слова записывается группа чисел, указывающих на то, в каких документах оно встречается, насколько часто, а также кое-какая служебная информация.
Исполнение запроса клиентаТретий этап - ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и немедленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом. Система анализирует ключевые слова, которые клиент использовал в запросе. С ними производятся те же операции освобождения от зарезервированных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поисковых систем происходят примерно одинаково, но самая последняя операция, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования результирующего списка. Если найдено очень много ссылок на ресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесь важно, какие ссылки дать в начале списка, а какие - в конце, то есть, надо вводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговые системы. При исчислении рейтинга учитывается множество параметров. За некоторые начисляются положительные баллы, а за некоторые - наоборот штрафные. Положительный рейтинг начисляется, в частности, при следующих обстоятельствах:
Лучшие поисковые системы недавно ввели новый подход к рейтингованию. Они учитывают количество ссылок в проиндексированном пространстве Web, ведущих к данному ресурсу. Это естественно, ведь чем больше публикаций ссылаются на данную страницу, тем она популярнее и тем выше вероятность того, что она будет полезной автору запроса. В традиционном библиотечном деле такой подход известен. Например, в США давно издается многотомный ежегодный "Индекс цитирования" (Citational Index), в котором каталогизируются ссылки разных авторов на первоисточники. Это непростой технически, но очень полезный для клиентов метод индексации ресурсов. К современным относятся и коммерческие хитрости. Относительно недавно некоторые поисковые системы (в том числе и такая известная, как Alta Vista) начали повышать рейтинг тем, кто готов за это платить. Такой под ход выглядит не очень красиво, но с точки зрения владельцев поисковых систем оправдан извечным тезисом "заботы о потребителе". Они заявляют, что для потребителя ценность информации на странице солидной фирмы, готовой нести расход на свою рекламу в Сети, все-таки выше, чем ценность доморощенной страницы никому не известного студента. Возможно, что они и правы. Во всяком случае тот, кто заплатил деньги за рейтингование своей страницы, наверное будет больше уделять внимания ее качеству, чем тот, кто сделал ее впопыхах и пристроил на первом попавшемся бесплатном сервере.
Сравнение поисковых каталогов и указателейУ каждого из двух основных типов поисковых служб есть достоинства и недостатки. Поисковые каталоги формируются вручную с помощью живых людей. Поэтому, как правило, если мы находим в них нужный нам ресурс, то этот ресурс - один из лучших в Сети. Он не обязательно самый лучший и, может быть, лишь входит в первую двадцатку, но он явно не случаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога, имеющие солидное образование в большинстве областей науки, техники и культуры, не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее и тем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный в разных местах или проиндексированный в разное время. В общем, если надо быстро найти лучший источник по какой то теме, надо начинать поиск с поискового каталога. Недостатком поисковых каталогов является их слабое знание о подлинных ресурсах WWW, которое с каждым днем падает в относительном измерении. Как мы уже говорили, крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанных ресурсов до миллиона, в то время как каждый год появляются сотни миллионов новых Web-страниц. Поисковые указатели черпают свою исходную информацию от поисковых роботов, день и ночь ползающих по просторам WWW. Процесс сбора информации полностью автоматизирован, поэтому объем проиндексированного пространства намного больше, чем у поисковых каталогов. Сегодня этот показатель превышает 25% общего пространства Сети. С другой стороны, отсутствие человеческого фактора сказывается на качестве того, что можно найти через поисковые указатели. Для робота совершенно все равно, написана ли статья по физике академиком или школьником. При рейтинговании робот может даже поставить страницу школьника выше. Поэтому поисковые каталоги лучше использовать для ознакомительного поиска, когда тема известна, а предпочтений нет, например при подготовке школьного реферата на тему "Теория относительности". Каталог быстро выведет вас на Web-узел, на котором вы либо найдете то, что хотели, либо получите ссылки на другие полезные ресурсы. А поисковые указатели стоит использовать для более глубоких или экзотических розысков. Например, человеку, которому о теории относительности и так уже все известно, вряд ли поможет поисковый каталог, имеющий ссылки на общеизвестные Web-ресурсы. А поисковый указатель, проиндексировавший 300 миллионов Web-страниц, может ему предложить какой-то уникальный отчет о семинаре, проведенном в университете штата Айдахо или в Новосибирске.
От чего зависит качество поискаКак нетрудно догадаться, достоинства поисковых каталогов являются недостатками поисковых указателей и наоборот. Основных параметров, с помощью которых оценивают качество поисковых систем, всего два: коэффициент попадания и коэффициент охвата. Коэффициент попадания показывает, какой процент ссылок, выданных поисковой системой, действительно относится к той теме, которая интересует клиента. Для поисковых каталогов этот коэффициент очень высок. Поскольку их составляют люди, появление " мусорной " ссылки - редкость. Обычно она возникает только когда за время, прошедшее после регистрации, Web-страница перестает существовать. Для каталогов этот коэффициент составляет порядка 70-80%, и уж во всяком случае не должен быть менее 50%. Для поисковых указателей этот коэффициент печально низок. Если не предпринимать специальных мер, он составляет единицы процентов. Причина лежит, во-первых, в том, что автоматические средства не могут точно выявлять тематическую принадлежность Web-страниц на основе формальных признаков, а во-вторых, в том, что большинство клиентов не умеют пользоваться всеми возможностями поисковых систем и формируют задание на поиск далеко не оптимально. Коэффициент охвата показывает, насколько база данных поисковой системы отражает истинное количество информации, имеющейся по данной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из них имеют коэффициент охвата порядка 25%. Поисковые каталоги, наоборот, не охватывают и одного процента всех наличных ресурсов. С точки зрения пользователя качество поиска означает стремление получить как можно больше ссылок по интересующей его теме, но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющих прямого отношения к объекту поиска. Пользователь желает, чтобы каждый из коэффициентов был близок к 100%. Его субъективная оценка качества поисковой системы напоминает произведение коэффициента попадания на коэффициент охвата. Сегодня же и для поисковых каталогов, и для поисковых указателей это произведение составляет десятые доли процента.
Гибридные системыВ стремлении повысить качество работы поисковых служб есть попытки совместить оба подхода. При этом возможны два варианта: поисковые каталоги привлекают возможности поисковых указателей, переадресуя им запрос. Например, до последнего времени поисковый каталог Yahoo переадресовывал особо сложные запросы поисковому указателю Alta Vista. Сегодня Yahoo! привлекает средства другого партнера - Inktomi. С другой стороны, поисковые указатели научились выполнять автоматическую каталогизацию своих ресурсов и предоставлять к ним доступ так, как это принято в поисковых каталогах. Пример такого подхода являет самый мощный сегодня поисковый указатель Fast Search (рис. 6.2).
Метапоисковые системыК метапоисковым системам относится множество поисковых служб второго эшелона. Они принимают от пользователя запрос и размещают его сразу на нескольких поисковых серверах. Потом они собирают поступившую от них информацию, обобщают ее, структурируют, рафинируют (очищают) и передают клиенту. Увеличенное время исполнения запроса компенсируется улучшенным качеством результатов поиска. Первое время крупные поисковые системы спокойно смотрели на существование "под собой" метапоисковых систем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаются запреты на метапоиск. А если говорить точнее, крупные поисковые системы начали заниматься им сами, привлекая ресурсы коллег на взаимовыгодной основе.
ПорталыВходя в World Wide Web с помощью браузера, мы попадаем на какую-то страницу, которая задана в настройках браузера в качестве начальной. Пользователь может легко перенастроить свой браузер на работу с другой начальной страницы. Какую именно страницу он будет использовать - его личное дело. Опыт показывает, что очень удобно иметь в качестве начальной страницы такую, на которой уже представлено несколько ссылок на основные поисковые системы. Удобно здесь же иметь доступ к электронной почте. Неплохо, если на этой странице всегда отображаются последние новости из мира политики, искусства, спорта, бизнеса и т. п. Такие "готовые" начальные страницы называются порталами. В мире существует множество порталов - настройте свой браузер на тот, который наилучшим образом соответствует вашим личным интересам. Хорошие порталы предоставляют пользователю возможность персональной настройки "под себя". Надо только включить флажки против тех поставщиков информации, которые вам интересны, и выключить у тех, которые для вас неактуальны. Борясь за клиентов, многие поисковые системы превращаются в порталы. Это означает, что они не только готовы поставлять результаты поиска, но и способны выполнять другие услуги. Часто название порталов начинается со слова My (Мой/Моя/Мое). Например, если на поисковых системах Yahoo!, Alta Vista или DejaNews вам предлагают подписаться на службу MyYahoo, MyAltaVista или MyDejaNews, то, значит, речь идет о том, чтобы стать постоянным клиентом удобного портала. Другой причиной того, что поисковые системы постепенно превращаются в порталы, стал тот факт, что им стало трудно одновременно и "копировать" пространство WWW, и индексировать гигантские базы данных, и обслуживать запросы клиентов. Поисковые системы начинают распределять обязанности. Задачи по контролю за Web-пространством постепенно передаются на партнерских основаниях "третьим" фирмам, а сами поисковые системы сосредоточиваются на обслуживании клиентов и привлечении рекламодателей, то есть превращаются в порталы.
Рейтинговые службыВ последние три года появился новый тип служб, позволяющих быстро разыскивать информацию в Сети, - это так называемые рейтинговые службы. Они занимают промежуточное положение между поисковыми службами и порталами и могут использоваться как в том, так и в другом качестве. Суть рейтинговой службы состоит в том, что на ее сервере создаются тематические списки ссылок на наиболее популярные Web-ресурсы. Хоть эти списки и небольшие, представительность их велика, поскольку именно эти ссылки предпочитают большинство клиентов Сети. Когда мы выбираем одну из ссылок, представленных на сервере службы, зарабатывает счетчик, и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит, сколько "нащелкали" его предшественники, и понимает, какой ресурс ему стоит посмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск "по рекомендациям". Разумеется, он не может претендовать на объективность, но когда речь идет о темах, имеющих общественный интерес, таких как новости, политика, спорт, кино, музыка, компьютерные игры и т. п., этим "рекомендациям" можно доверять. Самая популярная отечественная рейтинговая служба - Rambler (www.rambler.ru). Наиболее популярная зарубежная рейтинговая служба - Webside Story (www.hitbox.com) (рис. 6.3).
Основные поисковые системыAltaVista http://www.altavista.com/
Ask Jeeves http://www.askjeeves.com/
Direct Hit http://www.directhit.com/
FAST Search http://www.alltheweb.com/
Go/Infoseek http://www.go.com/
Служба была запущена в 1997 г. В ее основу был положен Web-краулер World Wide Web Worm, приобретенный у разработчика - университета штата Колорадо. С его помощью собиралась первичная база указателя, В 1998 г. служба перешла на нынешнюю "коммерческую" модель обслуживания и начала использовать систему Inktomi в качестве генератора "некоммерческих" ссылок.
HotBot http://hotbot.lycos.com/
Служба HotBot была создана в мае 1996 г. компанией Wired Digitals, которую в 1998 г. перекупила поисковая служба Lycos. Несмотря на это, HotBot продолжает функционировать как самостоятельная поисковая служба, параллельно с Lycos. Inktomi http://www.inktomi.com/
LookSmart http://www.looksmart.com/
Служба LookSmart была создана в 1996 г. при финансовой поддержке концерна Reader's Digest, но примерно через год ее учредители откупили службу, и сегодня она независима.
Название компании образовано из латинского словосочетания, которое можно перевести примерно как волкопаук. В 1998 г. служба Lycos выкупила акции своего ближайшего конкурента HotBot, который продолжает автономную работу под общим управлением Lycos. MSN Search http://search.msn.com/
Netscape Search http://search.netscape.com/
Northern Light http://www.northernlight.com/
Open Directory http://dmoz.org/
RealNames http://www.realnames.com/ Система, которую вводит служба RealNames, по замыслу своих создателей, должна прийти на смену ныне действующей системы адресации, основанной на доменных именах. Предполагается, что поиск организаций и людей должен выполняться по "реальному имени". Например, для поиска сервера господина Сидорова, надо ввести просто имя: Сидоров, а не www.sidorov.ru. Однако, пока до создания такой системы еще далеко, служба занимается тем, что на партнерских основах поставляет свои данные другим поисковым системам. В частности, она представлена на основных страницах поисковых систем Alta Vista и Go/lnfoseek. Snap - это поисковая служба, основанная на тематическом каталоге, однако данные для этого каталога собираются с помощью поискового указателя Inktomi. Как и поисковая служба LookSmart, служба Snap видит в качестве главной задачи добиться превосходства в объеме и структуре своего каталога над службой Yahoo!. WebCrawler http://www.webcrawler.com/
WebCrawler - одна из первых поисковых систем World Wide Web. Она начиналась как научно-исследовательская работа в Вашингтонском университете. В мае 1995 г. систему приобрела служба America Online, и до 1996 г. система WebCrawler выполняла поисковые функции в структуре этого крупнейшего поставщика Web-услуг. В 1996 г. систему WebCrawler приобрела поисковая служба Excite, под крылом которой она живет и сегодня.
Отечественные поисковые службыС большим удовлетворением мы должны отметить, что российский сектор Интернета развивается очень бурно. Сегодня ситуация такова, что даже если западный сектор по каким-либо причинам "прикажет долго жить", российский сектор достаточно автономен, чтобы развиваться самостоятельно и достойно обслуживать отечественных клиентов. Важную роль в становлении и развитии отечественного сектора Интернета сыграли отечественные поисковые службы (за что им огромное спасибо). Не знаем, смогли ли они к сегодняшнему дню подойти к самоокупаемости, но в первые годы без сомнения работали на энтузиазме, доброй воле своих сотрудников и вере в будущее. В России есть как универсальные, так и специализированные поисковые службы. Как и везде в мире, в первую очередь развиваются поисковые указатели и рейтинговые системы, но имеется и полноценный каталог - @Rus, в прошлом "Ау!".
Прежде всего следует отметить, что системе "Апорт 2000" удается мастерски сочетать "машинный" и "человеческий" факторы. Это достигнуто за счет тесной интеграции с партнерским каталогом @Rus. Так, например, когда по результатам поиска выводится адрес Web-страницы, он может сопровождаться кратким описанием Web-узла, взятым из каталога @Rus. Хотя пользователь и не видит глубинных процессов, но система "Апорт 2000" уделяет особое внимание рейтингованию результатов поиска. В частности, она использует наиболее эффективную сегодня систему рейтингования по количеству ссылок, ведущих к данному ресурсу (по индексу цитирования). По способу представления результатов поиска служба "Апорт 2000" в настоящее время является одной из самых передовых не только в России, но и в мире. Страница результатов поиска доставляет настоящее эстетическое удовольствие, хотя и требует разрешения экрана не менее, чем 600x800 точек. Атрус (@Rus) http://www.atrus.ru/ @Rus -популярнейший отечественный поисковый каталог, известный в прошлом под именем "Ау!" (http://www.au.ru/). Каталог разработан компанией "Web Tech" в сотрудничестве с компанией "Агама". При его наполнении активно используются средства поисковой системы "Апорт 2000", а результаты поиска могут предоставляться как самостоятельно через службу @Rus, так и в составе результатов поиска, проведенного службой "Апорт 2000". Кроме средств поиска служба @Rus предоставляет удобный каталог пор тал Мой @Rus. Пользователь может настроить его на быстрое получение наиболее нужной ему информации. Средства настройки каталога позволяют также отключить все лишнее на основной странице поисковой системы, что делает работу с ней особенно быстрой и удобной. Rambler http://www.rambler.ru/
На основной странице службы сказано, что "поиск - это искусство". Одна ко это не означает, что для работы с ней надо быть особо искусным. Про сто для тех, кто предпочитает подходить к поиску творчески и стремится развивать свое мастерство, Яndex предоставляет уникальные в своем роде инструменты, сосредоточенные в разделе расширенного поиска. Возможно, они даже несколько опережают свое время и украсили бы западную поисковую службу, имеющую дело с сотнями миллионов проиндексированных документов. А в российском секторе, где пока проиндексировано лишь 10-20 млн документов, мы нередко обходимся средствами простого поиска. Но и в области простого поиска служба Яndех имеет ряд технологических достижений, прежде всего интеллектуальный механизм морфологического разбора слов, что особенно важно для русского языка. Интересна новая услуга, предоставляемая службой. Для корпоративных клиентов она бесплатно предоставляет "облегченную" версию программы Яndех.Sitе, выполняющей индексацию содержимого Web-узла. Это удобно тем владельцам Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах собственного узла. В то время как большинство поисковых служб хранят свои средства индексации как "зеницу ока", этот шаг компании CompTek выглядит удачным маркетинговым ходом, способствующим росту популярности службы.
Приемы простого поиска информации в WWWКаждая поисковая система предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинации ключевых слов. Однако есть общие элементы, одинаково справедливые для большинства поисковых систем. Прежде всего, надо заметить, что чем точнее сформулировано задание на поиск, тем точнее будут и результаты. Например, если вы хотите найти документы с описанием замеченных ошибок Windows 98, то так и надо формулировать запрос: ошибки Windows 98, а не просто Windows. На англоязычных серверах очень часто срабатывает простое человеческое описание проблемы: printer works incorrectly (принтер работает неправильно).
Ловушка для начинающихОбычно наша задача состоит в том, чтобы выделить в пространстве Web самые нужные документы, однако многие начинающие ловятся на один и тот же крючок. Например, если вы хотите найти информацию о компьютерных играх (computer games), то кажется, что так и надо оформить запрос: computer games Увы, для большинства поисковых систем этот запрос будет ошибочным. При таком запросе система будет искать все Web-страницы, в которых встречается либо слово computer, либо слово games, либо оба вместе. В WWW полно страниц, на которых упоминаются компьютеры и нет ни слова про игры. Точно так же там полно страниц со спортивными, настольными и другими играми, которые нам не интересны. Вот всю эту массу и надо как-то отсеять, а мы наоборот ее запрашиваем.
Вот список поисковых систем, которые рассматривают группу слов, введенных через пробел, как задание на поиск любого из этих слов:
Следующие системы тоже способны выполнять поиск по любому из слов группы, но для этого надо либо установить соответствующий флажок, либо выбрать соответствующий пункт в меню:
Система Northern Light позволяет производить поиск по любому из ключевых слов только путем использования логической команды OR . Система Google вообще не имеет средств для такого поиска ("ловушка для начинающих" в ней принудительно закрыта).
Сложение наоборотЕсли нам надо, чтобы поисковая система нашла страницы, на которых одновременно присутствуют все использованные ключевые слова, то перед каждым из них надо поставить знак "+". Предположим, вы хотите узнать, не было ли в жизни известного лица каких-нибудь щекотливых ситуаций. В этом случае в условии поиска надо указать:
Поисковая система выдаст список страниц, на которых встречаются оба слова, хотя, конечно, не исключено, что между ними нет прямой связи. Список слов может быть больше - тогда результаты поиска будут точнее, например:
Использование знака " + " особенно полезно, если вы провели поиск по распространенному слову, но в ответ получили так много ссылок, что не знаете, как с ними поступить. Используя знак " + ", мы сужаем круг поиска и уменьшаем количество возможных ссылок. Знак " + " понимают все основные поисковые системы, за исключением LookSmart. А следующие системы выполняют такой поиск по умолчанию, даже если знак "+" не указан:
Имеет отличия и российская система Яndех. Если слова разделены пробелами, то система ищет одновременное появление этих слов, но только в пределах одного предложения. Если же требуется одновременность в пре делах всего документа, надо использовать знак "+". Интересную особенность имеет и российская система Rambler. В ней знак " + " можно использовать для управления весовым коэффициентом при рейтинговании результатов. Так, например, поставив несколько знаков "+" перед каким-либо словом, можно форсировать отображение страниц, содержащих его, в вершине результирующего списка.
Арифметика вычитанияИнтересно, что сужать круг поиска можно не только знаком "+", но и знаком "-". Допустим, вам надо написать для детского сада реферат о деятельности президента Клинтона, но при этом не хочется вникать в его историю с Моникой Левински. Исключить Левински из рассмотрения можно знаком "минус", например так.
Если, к примеру, нам надо написать реферат по оптике, но только по геометрической, а не по волновой, то поиск может быть таким:
Последняя команда разыщет все страницы, где присутствуют слова свет и оптика, но покажет только ссылки на страницы, не содержащие слова волна. Знак "-" понимают практически все основные поисковые системы.
Применим джокераВозьмем следующее предложение: В геометрической оптике световой луч рассматривается как прямая линия. Интересно отметить, что поиск по команде +свет +оптика может его и не найти, хотя это самая настоящая геометрическая оптика. Мы дали команду искать слово свет, а в документе написано: световой. Мы дали команду искать слово оптика, а в документе написано: оптике. Разумеется, многие поисковые системы производят нормализацию слов, но не все и не всегда, так что не стоит на это полагаться, а следует использовать подстановочный символ "*". Как джокер в карточной колоде может заменить любую карту, так этот символ может заменить любой другой символ или набор любых символов до конца слова. Если бы мы сформировали свой запрос так:
то наверное его результаты были бы шире без особой потери точности. Подстановочный символ "*" можно использовать в следующих поисковых системах:
Некоторые из крупнейших поисковых служб поддерживают нормализацию слов по умолчанию, то есть, они уже учитывают сокращение слов до основы, и потому в них не надо использовать подстановочный символ "*". В частности, к таким службам относится Infoseek.
Контекстный поискА почему бы нам сразу не искать то, что надо?
Может быть, это и было бы хорошим решением, но такой поиск выдаст ссылки на страницы, где упоминаются оба эти слова, причем совсем не обязательно, что вместе. То есть, слово геометрическая может быть в одном конце текста, а слово оптика - совсем в другом. Если же мы хотим объединить оба эти слова в одно сочетание, то надо применить кавычки:
или:
В случае использования кавычек поисковая система разыскивает документы, в которых абсолютно точно есть тот текст, который в них заключен. Поиск с помощью кавычек называется контекстным поиском.
Роль прописных буквПрописные буквы при проведении поиска имеют особый статус. Вам ведь понятна разница между сочетаниями красная шапочка и Красная Шапочка? С прописными буквами поисковые системы обращаются буквально, то есть разыскивают тексты, в которых слова записаны точно такими же буквами. Со строчными буквами все происходит демократичнее. Совладения засчитываются и в том случае, когда в тексте стоит прописная буква, и в том случае, когда буква строчная. Поиск по словам:
вернет результаты, в которых будут и красная шапочка, и Красная шапочка, и красная Шапочка, и Красная Шапочка. С другой стороны, поиск по словам:
даст гораздо более узкий результат: Красная Шапочка, - и все.
Поиск по заголовкамКаждая Web-страница может иметь заголовок, если Web-мастер не поленился его создать. Когда мы разыскиваем Web-страницы с помощью поисковых систем, то по результатам поиска нам обычно выдается ссылка, в которой присутствует заголовок Web-страницы, если он есть. Если его нет, то обычно выдается одно-два предложения первого абзаца. Многие поисковые системы позволяют разыскивать Web-документы по тексту, содержащемуся в заголовках. Такой поиск существенно уменьшает количество возвращаемых ссылок, но очень точно выводит на нужные материалы. Например, если вам нужны данные для доклада о Солнечной системе, имеет смысл искать не просто словосочетание Solar System (Солнечная система), а страницы, в которых это сочетание присутствует в заголовке. Командой такого поиска является title:, например:
или (лучше)
Поиск заголовков Web-страниц по команде title: поддерживают следующие поисковые системы:
Поисковый каталог Yahoo! тоже имеет команду для поиска заголовков. Она записывается так:
Система Lycos разыскивает заголовки только в режиме расширенного поиска. Поисковая система Aport имеет несколько альтернативных команд для поиска заголовков. Основная команда - title = . Примеры:
В поисковой системе Яndех команда поиска в заголовке записывается так:
а в поисковой системе Rambler - похоже, но без скобок, через двоеточие:
Поиск Web-узловСам по себе поиск Web-узлов используется достаточно редко, но команды этого поиска часто применяют для сокращения числа ссылок, возвращенных другими методами и ограничения их одним Web-узлом или, наоборот, исключения некоего Web-узла из результатов поиска. Одной из команд такого поиска является команда host:. Например, на поисковой системе Alta Vista команда host:microsoft.ru разыщет все Web-страницы, принадлежащие доменному имени mycrosoft.ru. Эту команду обычно комбинируют с другими. Если, например, нас интересуют планеты солнечной системы, но мы уже сыты по горло трудами Национального управления по исследованию космического пространства США (NASA), то сервер NASA можно исключить из поиска командой:
В команду можно включать не полное доменное имя сервера, а только его часть, например только имя домена. Так, если мы хотим обыскать только российские серверы, то можно использовать имя домена ru, например:
По этой команде мы узнаем, что пишут о маркерах cookies на российских Web-узлах. Не все поисковые системы позволяют проводить поиск по Web-узлам, да и команда поиска у них может быть различной. Вот список систем, которые такой поиск выполняют:
Поисковая система Lycos выполняет поиск Web-узлов только в режиме расширенного поиска.
Поиск URL-адресовЭтот поиск очень похож на поиск Web-узлов. Суть и смысл его те же, только команда другая - url:. Эту команду поддерживают следующие поисковые службы:
Поисковый каталог Yahoo! использует команду u:, а система Lycos реализует поиск URL-адресов с помощью команд расширенного режима. В России поисковая система Яndex использует команду #url=, после которой следует записать URL-адрес в кавычках. Поисковая система Апорт обходится более простым синтаксисом, например url= www.intel.ru, а в поисковой системе Rambler команда должна начинаться с символа " $ ", например так:
Поиск ссылокПоиск ссылок бывает полезен владельцам Web-страниц и Web-мастерам. Он позволяет, к примеру, количественно оценить динамику популярности своей страницы регулярным контролем числа ссылок, которые к ней ведут. Типовая команда для такого поиска -link:. Например, команда link:http://www.mywebsite.com/mypage/index.htm позволит выявить ссылки, которые ведут к титульной странице index.htm на Web-узле mypage, размещенном на Web-сервере www.mywebsite.com. Команду link: поддерживают следующие поисковые службы: AltaVista Infoseek Google Некоторые поисковые службы поддерживают команду linkpage:
Как обычно, российские поисковые системы имеют свои особенности. Например, Апорт поддерживает четыре разных представления команды:
Система Яndex поддерживает команду #link:, после которой адрес ссылки должен записываться в кавычках.
Средства расширенного поискаВыше мы рассмотрели лишь десять методов формулирования задания на поиск, однако их достаточно для проведения 90% поисковых работ в 90% поисковых служб. Все рассмотренные выше методы являются методами простого поиска. Кроме средств простого поиска обычно поисковые службы предоставляют средства расширенного поиска. Эти средства позволяют более точно формулировать поисковое задание, но требуют определенного опыта и работают заметно медленнее. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд и рассчитаны на профессионалов. Удобство использования логических команд в частности связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного поиска - наиболее стандартными.
Команда ORЛогическая команда OR (ИЛИ) служит для формирования поискового задания, состоящего из нескольких ключевых слов, если надо, чтобы разыскиваемый документ содержал любые из этих слов в любой комбинации. Например, по команде solutions OR hints будут разысканы Web-страницы, содержащие решения к компьютерным играм (solutions) или подсказки к ним (hints). Команду OR поддерживают абсолютное большинство основных поисковых служб, за исключением следующих:
Службы Infoseek, LookSmart и Yahoo! по умолчанию выполняют поиск по принципу ИЛИ, если через пробел задано несколько ключевых слов, и поэтому не нуждаются в этой команде. Лишь поисковая система Google вообще не имеет таких средств. "Апорт" позволяет использовать как английское ключевое слово OR, так и русское ИЛИ. Можно также использовать знак " ". Система Rambler использует или слово OR, или знак " | ", а система Япс1ех - только знак " | ".
Команда ANDЛогическая команда AND (И) служит для формирования поискового задания, когда надо, чтобы разыскиваемый документ содержал одновременно все слова, введенные пользователем. Это аналог команды "+" простого поиска. Например, по команде свет AND луч будут разысканы все Web-страницы, содержащие оба эти слова. Команду AND поддерживают абсолютное большинство основных поисковых служб, за исключением следующих, которые используют знак "+":
Апорт позволяет использовать как английское ключевое слово AND, так и русское И, а также знаки " &" и "+". Система Rambler использует ключевое слово AND или знак "&", а система Яndех - знак "&" или пробел, если требуется одновременное присутствие слов в одном предложении, или пару знаков "&&", если требуется одновременное присутствие слов во всем документе.
Команда NOTЛогической командой NOT (HE) устанавливают исключения из результатов поиска, то есть это аналог рассмотренной выше команды простого поиска " -". Эту команду поддерживает большинство служб, за исключением:
Системы AltaVista, Excite, Snap требуют специальной формы записи этой команды: вместо NOT в них следует давать команду AND NOT. Наряду с командой NOT в системе Апорт 2000 разрешается использовать команду " НЕ", а в системе Rambler - команду "!". Интересна особенность системы Яndех. Она реализует логическую команду И НЕ, которая записывается значком "-", если относится к одному предложению и парой значков "-", если относится ко всему документу.
Команда NEARЭто одна из самых удобных команд расширенного поиска. Она позволяет совместить достоинства поиска по ключевым словам и контекстного поиска. При глубоком поиске самые лучшие результаты возвращаются с помощью этой команды. Пример: поисковая команда Quake NEAR hints позволит разыскать документы, в которых присутствуют слова Quake и hints одновременно, причем находятся поблизости друг от друга. К сожалению, редкие поисковые службы поддерживают поиск с помощью команды NEAR. При этом у разных служб разное представление о том, что значит "близкое" размещение слов друг к другу:
И Lycos, и WebCrawler позволяют управлять размером интервала, в котором разыскиваются ключевые слова. Для этого команду NEAR задают с параметром /#. Например, команда ночь NEAR/10 река позволит разыскать произведения, в которых есть описание реки ночью, если слова ночь и река отстоят друг от друга не более, чем на десять слов. В российской поисковой системе Rambler аналогичная команда начинается со знака "$" и заканчивается двоеточием ($NEAR:). В поисковой системе Апорт расстояние между словами задается командой СЛ#(...,...,...), где вместо знака " # " следует подставить цифру или число, обозначающее пре дельное расстояние, а вместо многоточий - список ключевых слов. В поисковой системе Яndех расстояние задается в круглых скобках после дробной черты. При этом указать расстояния можно как "вперед", так и "назад":
Такая команда позволит разыскать на только средства расширенного поиска, но и поисковые средства.
Вложение командВложение команд позволяет создавать весьма сложные запросы. Оно выполняется с помощью круглых скобок (). Команда, стоящая в скобках, выполняется в первую очередь. Рассмотрим пример поиска решений или подсказок к компьютерной игре Diablo:
В этом случае сначала будут отобраны документы, в которых приводятся подсказки или решения для компьютерных игр, а потом из них будут выбраны те, в которых упоминается игра Diablo. Использование круглых скобок для управления порядком исполнения задания на поиск разрешается большинством крупнейших поисковых систем, за редким исключением:
Выбор поисковой службыКак проверить незнакомую поисковую службуЛет пять назад лучшей считалась та служба, которая владела наибольшим индексом. Пока Web-страниц было немного, в результатах поиска можно было ориентироваться относительно легко. Тогда проверить незнакомую службу было очень просто - надо было набрать достаточно распространенное слово, например Pentium, и сравнить, сколько ссылок на него дают разные поисковые системы. Сегодня величина индекса уже не имеет того значения, как его качество, хотя принцип проверки остается тем же самым. Введите простое и понятное слово и посмотрите, насколько найденные Web-страницы соответствуют вашим ожиданиям. Если, например, при поиске по слову Шахматы поисковая система в качестве первой (самой важной!) ссылки выдает Web-страницу, посвященную скульптуре, то этой системе нужно еще какое-то время на адаптацию, прежде чем ею можно будет пользоваться.
Реферативный поискПредполагается, что вам задана тема, которую надо осветить, но по ней нет никакой информации. Так обычно бывает, когда надо написать реферат, подготовить выступление, статью, отчет, справку и т. п. Часто реферат делают не по заданию, а "для себя", в порядке подготовки к другой, более крупной работе, например к написанию диссертации или книги. В этом случае начинать исследование темы надо с поискового каталога. Это ничего, что в нем отражен только один миллион страниц - нам и этого много. Двух-трех страниц с содержательной информацией обычно бывает достаточно, чтобы сделать свое дело. К тому же эти страницы тоже имеют полезные ссылки. Вы можете быть уверены в том, что лучшая часть сетевой информации в таких каталогах, как Yahoo! обязательно присутствует. Например, ваша собака заболела демодекозом. Вы слышали, что болезнь эта неизлечимая, но интересно проверить, что по этому поводу говорят мировые светила. Вы можете получить сотни ссылок с помощью поискового указателя типа Alta Vista. Среди них, конечно же, будут ссылки на самого лучшего специалиста в мире по данному вопросу, но как их угадать? С помощью Yahoo! вы гораздо быстрее найдете его Web-узел.
Углубленный поискУглубленный поиск предполагает, что общее знакомство с вопросом уже есть, но нужны какие-то мелкие детали и тонкие нюансы. Поисковый каталог здесь может не помочь - слишком поверхностно его знание о ресурсах WWW. В этом случае надо использовать поисковый указатель, а лучше - не один. Однако для того чтобы отфильтровать информацию и сузить результаты поиска, надо применять специальные средства, в частности средства расширенного поиска. Методы простого поиска могут дать слишком много побочной информации. Каждый, кто является специалистом в какой-то области, знает ключевые слова, характерные для нее, а умение грамотно сформулировать задание на поиск достигается методом проб и ошибок. Допустим, вы считаете себя специалистом в области стратегических игр реального времени и с основными достижениями в этой области уже знакомы. Допустим, вы хотите найти новую для себя информацию. Вряд ли Yahoo! даст то, чего вы не знаете - все это вы уже читали. Попробуйте с помощью системы Alta Vista сделать поиск по ключевым словам:
Это пример расширенного поиска. Он вернет ссылки на документы, в которых присутствуют все эти слова и, более того, слово realtime находится рядом (NEAR) со словом strategy. В ответ на такой запрос вы получите немало ссылок. Но вы же специалист! Вы уже знаете основные ресурсы и сумеете в этом длинном списке выделить те ссылки, которые ведут к ранее неизвестным ресурсам.
Специальный поискСпециальный поиск труден и в поисковых каталогах, и в поисковых указателях. Если, например, вы занимаетесь физикой лазеров, то утонете в ссылках, ведущих к научно-фантастическим романам, в которых упоминаются лазеры. Как специалисту, вам лучше всего пользоваться списками ссылок, составленными другими специалистами или небольшими поисковыми системами научных учреждений. А чтобы выйти на них, следует начинать с поискового каталога. Поиск скомпрометированной информацииСпециальный поиск труден и для "специалистов нетрадиционной ориентации", например для хакеров. Поиск по словам +hacker + information заранее обречен на провал - страниц, удовлетворяющих этому условию, немерено. Можно попробовать подумать над применением углубленного поиска. Чем занимаются хакеры? Наверное, что-нибудь ломают (crack), охотятся за чем-нибудь бесплатным (free) и обмениваются паролями (passwords). Можно попробовать такой поиск:
Он даст более осмысленные результаты, но не спешите их использовать. С ними вы потеряете не один час и все равно ничего полезного не найдете. Мы уже говорили о том, что Web-узлы с "горячей" информацией существуют вовсе не для того, чтобы удовлетворять запросы. Их цель как раз обратная - ни в коем случае не удовлетворить запрос клиента и держать его в подвешенном состоянии. Пусть думает, что до заветного первоисточника ему осталось сделать пару щелчков, и пусть он так думает вечно. За каждый щелчок владельцам "вертушек" поступают деньги. Как только клиент найдет, что искал, щелчки прекратятся, и деньги тоже. О том как выходить из " вертушек ", мы говорили, когда изучали управление браузером, а здесь речь пойдет том, как в них не попадать. На выходе из основных поисковых систем западни уже расставлены, так что искать "скомпрометированную информацию" в поисковых системах занятие бессмысленное. Самый надежный прием - воспользоваться рекомендациями других пользователей. Вот здесь нам и пригодятся рейтинговые службы. Любители музыки, собирающие коллекции записей в формате МРЗ, не станут ходить на серверы, устраивающие "вертушки". Вам надо только посмотреть с помощью рейтинговой службы, куда ходит большинство ваших партнеров по увлечению и, скорее всего, выбор будет неплохим. А далее можно путешествовать по ссылкам, представленным на разысканных Web-узлах, и создавать свою систему закладок на будущее.
Контекстный поискСчитается, что невозможно пойти туда, не знаю куда и найти то, не знаю что. Может быть, это и так, но если есть общая идея и фантазия, то все-таки кое-что сделать можно. Давайте предположим, что мы хотим почитать повесть или рассказ в жанре фэнтези, причем нам все равно, что читать. Автор и название книги роли не играют - мы для того и занимаемся поиском, чтобы узнавать о новых авторах и новых книгах. Проще всего, конечно, воспользоваться поисковым каталогом и напрямую разыскать, что известно в WWW о литературе в жанре фэнтэзи. Однако этот поиск к книгам не приведет. Скорее всего он закончится в сетевом магазине, торгующем книгами, или на домашней странице автора одной из книг. Книги - это объект, защищаемый законами об авторском праве, и если кто-то и выставил их содержание в Интернете, то сделал это нелегально и не будет себя афишировать. Однако если вы подозреваете, что где-то в недрах WWW нужное вам произведение все-таки есть, попробуйте применить контекстный поиск. Метод контекстного поиска опирается на ожидаемое содержание документа. Например, для книг в жанре фэнтэзи могут быть характерными такие фразы:
Нет никакой гарантии, что любая придуманная фраза даст какой-то результат, но фантазия нам для того и дана, чтобы экспериментировать. Зато когда окажется, что мы попали в точку и угадали ход мысли автора, это уже само по себе награда. Так поиск превращается в азартную охоту за документами. Вы, конечно, понимаете, что искать этим приемом можно совсем не только литературу. Например, если надо найти неформальные данные по биографии Луиджи Гальвани, не спешите заказывать поиск по словам:
Он легко отправит вас к конференциям и семинарам, посвященным его светлой памяти, а это не то, что нужно, когда собираешь неформальные данные. Из чисто спортивного интереса поищите простую фразу:
Возможно, вы найдете такие ресурсы, до которых не докопались бы иным способом. Это может быть курсовая работа студента-медика, который учится там, где Гальвани преподавал двести лет назад. Это может быть сочинение школьника, который живет в том доме, где когда-то жил Гальвани. В общем, результат может быть неформальным и очень интересным.
Поисковые средства браузераКакой именно поисковой службой стоит пользоваться, мы сказать не можем, поскольку это зависит от того, какие задачи перед вами стоят, и каким иностранным языком вы владеете. Однако мы можем сказать, какой поисковой службой пользоваться не стоит - той самой, на которую браузер настроен "от рождения".
При открытии этой панели происходит подключение к поисковой службе
MSN Search компании Microsoft. Ничем хорошим эта служба не выделяется,
поскольку принимает наши запросы и размещает их на серверах других поисковых
служб. В принципе, это ненужный посредник. Кроме того, операционная система,
браузер и поисковая система, принадлежащие одной компании, образуют не
самое лучшее сочетание в смысле безопасности. Наличие "дыр"
в одном программном продукте может эксплуатироваться другими продуктами
(а таких "дыр" более чем достаточно). В итоге мы только констатируем
тот факт, что браузер имеет удобные встроенные средства для организации
поиска в WWW, но оставляем их без рассмотрения.
Выводы и рекомендацииОбобщая все сказанное выше, можно дать следующие рекомендации:
Новые технологии поисковых системКризисные явления в технологии поискаУже начиная с конца 1997 г. в развитии технологий поисковых систем на Западе наметился кризис, который не разрешился до сих пор. Суть кризиса состоит в том, что обе наиболее распространенные технологии (поисковые каталоги и поисковые указатели) зашли в тупик, связанный с тем, что пространство Web-развивается гораздо быстрее, чем растут объемы про индексированной области. Мы уже говорили о том, что к началу 2000 г. размер Web-пространства оценивается в 850 млн. документов, в то время как самые мощные поисковые системы еще не достигли индексов размером 300 тыс. документов. Само по себе это явление не так страшно, но дело в том, что:
Если нужно пояснить последнюю мысль, то пожалуйста. Любой поисковой системе, как и любому бизнесу в Интернете нужен прежде всего доход. Увеличение объема проиндексированной части Web-пространства ведет во-первых к резкому увеличению накладных расходов, и, во-вторых, к сокращению количества потребителей. Почему оно сокращается? Да потому, что как только система достигает таких размеров, с которыми толком не может справиться, клиенты начинают от нее отказываться. И действительно:
К слову сказать, на российских поисковых системах мы кризиса не наблюдаем. Здесь наоборот с каждым месяцем новые технологии обеспечивают нас все более полной и точной информацией. Растет и уровень знания этих систем о Рунете, улучшается качество рейтингования Web-узлов, совершенствуются методы представления найденной информации. Успех российских поисковых систем закономерен. Он связан с тем, что они используют технику и технологии 2000 года применительно к узкому пространству документов, сравнимому с западным уровнем 1993 года. А вот на Западе сегодня большинство поисковых систем переживают кризис, причем глубокий. Он тянется уже три года, многих выбил с рынка и привел к серьезным изменениям в подходах к поиску информации. Этот кризис никем официально не объявлялся, но аналитики, занимающиеся исследованиями в Сети, его наблюдают давно, и видят десятки, если не сотни безуспешных попыток его преодолеть.
Что происходит на самом делеНа самом деле крупнейшие мировые поисковые системы сейчас бьются за рекламодателей, и им по большому счету глубоко наплевать на то, какое качество поиска они предоставляют. До тех пор, пока количество посетителей у них растет (а оно растет хотя бы потому, что к Интернету подключаются все больше и больше людей), им, по большому счету, ничего не надо делать, чем они успешно и занимаются, хотя каждая система - по-разному.
Мы, как и десятки миллионов других пользователей Интернета, можем не догадываться о существовании кризисных явлений в системах поиска информации. Нас совершенно не интересуют объективные причины этих явлений, но мы каждый день ощущаем их на себе. Это ощущение проявляется в том, что получаем все больше и больше рекламы и все меньше и меньше полезной информации. Наверное именно этим можно объяснять бурный всплеск популярности поисковых систем, основанных на рейтинговании (типа "Рамблера"). Им не надо знать о Web слишком много. Вполне достаточно того, что по каждой теме они предлагают нам сотню самых популярных (это не всегда означает "лучших") ресурсов, и при этом дают их популярности количественную оценку.
Возможные перспективыВ последнее время в области поисковых систем все чаще и чаще упоминается термин SMART-технологии. Здесь речь идет о принципиально новых приемах и методах индексации и каталогизации Web-пространства. Как и везде, где дело касается алгоритмов, конкретные сведения не разглашаются, хотя по скупым сообщениям можно понять, о чем здесь идет речь. SMART-технологии имеют несколько компонентов. Один из них состоит в векторизации пространства документов. Грубо говоря, это делается так. Составляется некий достаточно большой словарь ключевых слов, где за каждым словом закреплено некое число. При индексации нового документа ему присваивается многомерный вектор, координаты которого рас считываются по словарю ключевых слов. Сам документ хранить не надо - достаточно хранить его адрес и вектор. При получении запроса на поиск по ключевым словам, для этого запроса тоже можно построить математический вектор. Интересно отметить, что в принципе от пользователя не надо требовать ввода ключевых слов. Ему можно предложить иерархическую структуру, подобную каталогу. Пройдя по ветвям этой структуры до той темы, которая его интересует, он тем самым уже сформирует вектор поиска. Далее надо просто сравнить этот вектор поиска с векторами проиндексированных документов. Идеален случай, когда вектора совпадут, хотя на практике такое вряд ли возможно, если вектор имеет очень много координат. При совпадении векторов их скалярное произведение равно нулю. Если они близки, то и их скалярное произведение близко к нулю. В общем, сложные и трудоемкие операции поиска заменяются расчетом косинуса угла между двумя векторами (чем он ближе к единице, тем точнее совпадение). При этом объем данных невелик, операции производятся мгновенно, систематизация результатов поиска происходит очень просто - по косинусу. Мы можем прикинуть, какими техническими ресурсами должна обладать такая система. Если на каждый документ строить тысячемерный вектор, он уложится в килобайт. Миллиард документов займут массив размером 1000 Гбайт (пятьдесят современных жестких дисков) - это по силам даже малому предприятию. Все операции сравнения прекрасно распараллеливаются, и удобны для работы в многопроцессорной системе. Остается только проблема связи - необходимо иметь дорогой и производительный канал, например спутниковый или оптоволоконный, соединяющий такую систему с узлом опорной сети Интернет. Таким образом, в ближайшие дни можно ожидать появления новых модных и недорогих систем поиска информации, работающим по новым технологиям.
Автоматические каталогиПонятно, что пользоваться поисковым каталогом гораздо удобнее, чем поисковым указателем. Одна беда - слишком мало он "знает" о реальном положении дел в WWW, поскольку составляется живыми людьми. Проблема могла бы решиться, если бы существовали средства автоматической каталогизации документов по каким-то формальным признакам. До сих пор таких средств не было. Лишь человек умел легко различать статьи по химии и физике. Компьютер при этом может наделать ошибки. Возможно, что развитие SMART-технологи и приведет к автоматической
каталогизации Web-ресурсов. На непросвещенный взгляд это не так трудно
сделать: надо построить базовые векторы для разных областей человеческого
знания, сравнить векторизованные документы с этими базовыми век торами
и разнести документы в тысячи разных папок. На самом деле это не так просто,
поскольку полная векторизация всех областей человеческого знания - это
задача не на один год, особенно если учесть, что работу надо провести
не только для английского языка.
Первые ласточки?Поисковые системы очень неохотно открывают технологии, по которым работают. Пока мы не можем уверенно сказать, кто именно и в каком объеме уже использует SMART-технологии, но строить предположения все-таки можно. В частности, удивительным выглядит успех поисковой системы Fast Search (www.fastsearch.com), которая начала работать в мае 1999 г. и уже в августе того же года вышла на первое место в мире по объему проиндексированного пространства. Она очень быстро работает и представляет данные в виде каталогов! Более того, в системе действуют разные поисковые машины, распределенные по направлениям: медицина - отдельно, юриспруденция - отдельно. Вся система вводится в строй очередями. В начале 2000 г. начинают работать поисковые машины по спорту, туризму и электронной коммерции. Не являются ли эти особенности развития системы следствием того, что в ее основе лежат SMART-технологии и векторная модель пространства? Это могло бы объяснить и невероятный темп развития, и характер представления информации, соответствующий каталожному, и даже ввод системы в строй тематическими очередями. Ответа на этот вопрос пока у нас нет, но думаем, что скоро мы увидим появление поисковых систем нового поколения, которые не будут сдерживать индексацию ресурсов и будут лучше соответствовать потребностям XXI века.
Феномен "Alexa"На размышления о том, что где-то в Сети уже работают поисковые службы, основанные на SMART-технологии, нас натолкнуло знакомство с поисковой службой Alexa. Скажем сразу, что один раз попробовав работать с ней, далее невозможно отказаться, поскольку без нее чувствуешь себя слепым в чужом городе. Принцип работы системы Alexa. В основе этой системы лежит гениальная идея отказа от использования автоматических средств сканирования Web. Эта работа возлагается на плечи самих клиентов службы (сегодня их более трех миллионов человек). Суть идеи проста и очевидна. После соединения с сервером (www.alexa.com) на наш компьютер устанавливается клиентская программа службы, которая сама "цепляется" к браузеру в виде дополнительной панели. На момент написания этой книги существуют версии клиентских программ как для Internet Explorer, так и для Netscape Navigator. При запуске браузера автоматически запускается и клиентская программа. Она устанавливает связь с собственным сервером и открывает в браузере дополнительную панель (вертикальную или горизонтальную, по вкусу пользователя). Куда бы мы теперь ни направились в Web-пространстве с помощью браузера, Alexa всегда "видит" то, что видим мы, "читает" то, что читаем мы и постоянно информирует свой сервер о каждом открытом нами документе. Когда три миллиона человек занимаются путешествиями в Web-пространстве, темп поступления индексированных документов на центральный сервер службы может быть в тысячи раз больше, чем у служб, использующих автоматические роботы. Правда, при этом возникает вопрос, а что от этого имеем лично мы кроме некоторых заметных задержек с запуском браузера и переходом между страницами? Оказывается, очень многое.
Кроме перечисленного выше, система предоставляет еще множество разных услуг. Например, с ее помощью можно не изучать правила синтаксиса для ввода запросов на серверах крупнейших поисковых служб. Вполне достаточно сформировать свой запрос в соответствии с правилами системы Alexa, a она сама "переведет" его на язык, понятный другим поисковым системам, отправит запрос и вернет результаты. Многие Web-страницы содержат невидимую для пользователей информацию о том, где находится и кому принадлежит тот узел, с которым они связываются. Alexa делает эту информацию видимой. В общем, Alexa ежеминутно оказывает множество полезных и интересных услуг. С ее помощью можно вообще отказаться от использования большинства поисковых систем и заниматься навигацией в Web по ее рекомендациям. Заканчивая этот раздел, мы честно признаемся, что пока не знаем, какие механизмы лежат в основе функционирования этой уникальной службы. Но у нас есть множество оснований предполагать, что это работает SMART -технология. В таком случае мы, скорее всего, увидим в ближайшие годы множество неожиданных решений в области поиска информации. На наших глазах поиск становится увлекательной игрой. Освойте правила этой игры, запаситесь необходимыми инструментами, и никакой информационный бум вам не будет страшен. |