Каждому по поиску

Дата публикации: 25.04.2007
Раздел: Статьи

Наступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (такие как scholar.google.com, google.com/codesearch, koders.com), в данной статье автор хотел бы поделиться своими впечатлениями о сервисах, позволяющие создать свой тематический поисковик

Первая ласточка

Около года назад ЗАО "Поисковые технологии" запустило бета-версию "Персонального поиска" в рамках проекта "Новотека" (personal.novoteka.ru), который позволил желающим создавать свои тематические поисковые системы. Для использования сервиса "Новотека" предлагает несколько вариантов использования, в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Так же, они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гб – этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанными на базе "Новотеки" оказались достаточно популярными. Например, поиск по антивирусных сайтам от Игоря Ашманова -  public.novoteka.ru/antivirus или по ресурсам для поисковых оптимизаторов public.novoteka.ru/seoteka.

Несмотря на жесткие правила по регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы, от поиска по электронным библиотекам и научным сайтам до поисков по недвижимости и тендерам.

Следующим этапом эволюции "Персонального поиска" станет проект Flexum (www.flexum.ru), запуск которого запланирован на дни выхода данной статьи в печать. Как обещают разработчики, пользователи "Персонального поиска" будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в т. ч. тематического

Через несколько месяцев после запуска "Персонального поиска", и Google объявил об открытии сервиса "Google Custom Search Engine" (google.com/coop/cse). Поисковому гиганту нет нужды в выделении каких-либо дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую огромную базу.

Как раз благодаря использованию уже готовой глобальной базы, нет необходимости в использовании поискового робота, достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE достаточно гибка, проста и интуитивно понятна. Она заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам тэги, выбирая которые, пользователь сможет еще больше конкретизировать свой запрос.

В отличие от "Персонального поиска", Google CSE не представляет возможности экспорта результатов в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от "Новотеки" не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она жизненно необходима, но в ряде случаев довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы использовать более краткий вариант: site.ru/(hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В "Персональном поиске" нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены статьи различной тематики. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name/. А во втором соответственно  site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с "Персональным поиском" оба способа одинаково удобны: задается одна или несколько точек входа – по количеству страниц оглавлений разделов – и статьи, на которые они ссылаются, будут проиндексированы.

В Google CSE очень просто работать со ссылками первого типа: для каждого раздела достаточно добавить фрагмент текста, который присутствует в адресах входящих в него статей – "site1.ru/category_name". Со вторым типом возникают проблемы. Если указать строку "site2.ru", то в поиске будут задействованы статьи всех разделов, даже ненужных. В таких случаях можно добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое занятие, если статей на сайте сотни. К счастью, большинство качественных ресурсов использует первый способ адресации статей и разделов.

Рассматривая Google CSE, стоит также отметить возможность показа объявлений Google AdSense в тематическом поиске, которые приносят автору поисковика дополнительный доход. Также сервис Google позволяет выводить на странице поиска список наиболее популярных запросов.

Отсутствие у "Новотеки" общих поисковых баз не стоит однозначно трактовать как недостаток. "Персональный поиск" предоставляет возможность создания своей собственной поисковой базы. Некоторые веб-страницы по различным причинам могут отсутствовать в индексе Google. "Персональный поиск" лишен этого недостатка и в базу будет включено точно то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Потенциал Flexum

Как в Google CSE так и в будущем Flexum автор может приглашать к себе соавторов для совместной работы над настройкой своего поиска. Но в Flexum это более явно выделено в концепцию "социального поиска". Вокруг создателей поисковых систем организуется социальная сеть, в которой они могут общаться, искать себе новых соавторов, давать друг другу права на работу со своими поисковыми системами (добавлять, редактировать описания или удалять сайты из поисковой системы, работать с тэгами), оценивать качество работы других поисковых систем и т.д.

Все это позволяет в будущем создать на основе Flexum социальную саморегулируемую поисковую систему, построенную самими участниками-авторами Flexum.

Кроме того, в Flexum автор имеет большие возможности по управлению поисковой системой, такие как:

- редактирование релевантности, то есть назначение каким-либо сайтам своего поиска более высокого веса, чем остальным.
- создание тематических статей-объявлений, связанных с поисковыми запросами и появляющихся в поисковой выдаче выше результатов обычного поиска.
- заимствование описания сайтов у других авторов.

Кроме стандартного списка документов, присутствующих в любой поисковой системе, пользователь может увидеть реферат найденного документа, автоматически построенный по тексту документа и заданному пользователем запросу, тем самым можно оценить, насколько информация в документе соответствует запросу пользователя, перед тем как непосредственно перейти на выбранный сайт. Описанные возможности Flexum реализованы в  действительно удобном интерфейсе, построенном на AJAX.

В заключение, хотелось бы отметить, что двумя вышеперечисленными сервисами весь  список онлайн-средств для создания тематических поисковиков. Например, есть Rollyo (rollyo.com) и Swicki (swicki.eurekster.com). Последний имеет большую социальную составляющую, так как его удобно адаптировать не только к определенной тематике, но и конкретному онлайн-комьюнити. К тому же этот сервис отличает ряд интересных возможностей, таких как самообучение на основе прошлых запросов, демонстрация "облака" популярных запросов и т. д. Большая ложка дегтя заключается в том, что Swicki упорно не хочет сколько-нибудь прилично работать с русским языком. Да и у Rollyo в этом плане не все благополучно. Возможно поэтому, сервисы по сей день остались практически не востребованными в Рунете.

BYOMS

Достаточно оригинальную вариацию тематического поиска воплотили в жизнь разработчики системы BYOMS, что расшифровывается, как "build your own mobile search" (построй свой собственный мобильный поиск). Впрочем, к мобильному телефону сервис имеет весьма отдаленное отношение. Сеть его работы состоит в следующем. Пользователь регистрируется на сайте системы, после чего составляет список ресурсов для индексации, параллельно указывая ряд дополнительных параметров для работы. После этого пользователь получает к системе через IM-клиент (увы, поддерживается только AIM). В списке интернет-пейджера появляется новый контакт. Это бот, который воспринимает реплики пользователя в качестве поисковых запросов и отвечает результатами поиска. С мобильниками BYOMS связывает только то, что многие телефоны поддерживают работу с IM-клиентами, и в этом случае еще ярче проявляется удобство такой формы поиска. – Р.Н.

Компьютерра
Advertology.Ru

Ссылка на статью: http://www.advertology.ru/article45922.htm

liveinternet.ru Рейтинг@Mail.ru Rambler's Top100