Статьи

Каждому по поиску

Каждому по поискуНаступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (такие как scholar.google.com, google.com/codesearch, koders.com), в данной статье автор хотел бы поделиться своими впечатлениями о сервисах, позволяющие создать свой тематический поисковик

Первая ласточка

Около года назад ЗАО "Поисковые технологии" запустило бета-версию "Персонального поиска" в рамках проекта "Новотека" (personal.novoteka.ru), который позволил желающим создавать свои тематические поисковые системы. Для использования сервиса "Новотека" предлагает несколько вариантов использования, в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Так же, они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гб – этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанными на базе "Новотеки" оказались достаточно популярными. Например, поиск по антивирусных сайтам от Игоря Ашманова -  public.novoteka.ru/antivirus или по ресурсам для поисковых оптимизаторов public.novoteka.ru/seoteka.

Несмотря на жесткие правила по регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы, от поиска по электронным библиотекам и научным сайтам до поисков по недвижимости и тендерам.

Следующим этапом эволюции "Персонального поиска" станет проект Flexum (www.flexum.ru), запуск которого запланирован на дни выхода данной статьи в печать. Как обещают разработчики, пользователи "Персонального поиска" будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в т. ч. тематического

Через несколько месяцев после запуска "Персонального поиска", и Google объявил об открытии сервиса "Google Custom Search Engine" (google.com/coop/cse). Поисковому гиганту нет нужды в выделении каких-либо дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую огромную базу.

Как раз благодаря использованию уже готовой глобальной базы, нет необходимости в использовании поискового робота, достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE достаточно гибка, проста и интуитивно понятна. Она заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам тэги, выбирая которые, пользователь сможет еще больше конкретизировать свой запрос.

В отличие от "Персонального поиска", Google CSE не представляет возможности экспорта результатов в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от "Новотеки" не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она жизненно необходима, но в ряде случаев довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы использовать более краткий вариант: site.ru/(hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В "Персональном поиске" нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены статьи различной тематики. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name/. А во втором соответственно  site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с "Персональным поиском" оба способа одинаково удобны: задается одна или несколько точек входа – по количеству страниц оглавлений разделов – и статьи, на которые они ссылаются, будут проиндексированы.

В Google CSE очень просто работать со ссылками первого типа: для каждого раздела достаточно добавить фрагмент текста, который присутствует в адресах входящих в него статей – "site1.ru/category_name". Со вторым типом возникают проблемы. Если указать строку "site2.ru", то в поиске будут задействованы статьи всех разделов, даже ненужных. В таких случаях можно добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое занятие, если статей на сайте сотни. К счастью, большинство качественных ресурсов использует первый способ адресации статей и разделов.

Рассматривая Google CSE, стоит также отметить возможность показа объявлений Google AdSense в тематическом поиске, которые приносят автору поисковика дополнительный доход. Также сервис Google позволяет выводить на странице поиска список наиболее популярных запросов.

Отсутствие у "Новотеки" общих поисковых баз не стоит однозначно трактовать как недостаток. "Персональный поиск" предоставляет возможность создания своей собственной поисковой базы. Некоторые веб-страницы по различным причинам могут отсутствовать в индексе Google. "Персональный поиск" лишен этого недостатка и в базу будет включено точно то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Потенциал Flexum

Как в Google CSE так и в будущем Flexum автор может приглашать к себе соавторов для совместной работы над настройкой своего поиска. Но в Flexum это более явно выделено в концепцию "социального поиска". Вокруг создателей поисковых систем организуется социальная сеть, в которой они могут общаться, искать себе новых соавторов, давать друг другу права на работу со своими поисковыми системами (добавлять, редактировать описания или удалять сайты из поисковой системы, работать с тэгами), оценивать качество работы других поисковых систем и т.д.

Все это позволяет в будущем создать на основе Flexum социальную саморегулируемую поисковую систему, построенную самими участниками-авторами Flexum.

Кроме того, в Flexum автор имеет большие возможности по управлению поисковой системой, такие как:

- редактирование релевантности, то есть назначение каким-либо сайтам своего поиска более высокого веса, чем остальным.
- создание тематических статей-объявлений, связанных с поисковыми запросами и появляющихся в поисковой выдаче выше результатов обычного поиска.
- заимствование описания сайтов у других авторов.

Кроме стандартного списка документов, присутствующих в любой поисковой системе, пользователь может увидеть реферат найденного документа, автоматически построенный по тексту документа и заданному пользователем запросу, тем самым можно оценить, насколько информация в документе соответствует запросу пользователя, перед тем как непосредственно перейти на выбранный сайт. Описанные возможности Flexum реализованы в  действительно удобном интерфейсе, построенном на AJAX.

В заключение, хотелось бы отметить, что двумя вышеперечисленными сервисами весь  список онлайн-средств для создания тематических поисковиков. Например, есть Rollyo (rollyo.com) и Swicki (swicki.eurekster.com). Последний имеет большую социальную составляющую, так как его удобно адаптировать не только к определенной тематике, но и конкретному онлайн-комьюнити. К тому же этот сервис отличает ряд интересных возможностей, таких как самообучение на основе прошлых запросов, демонстрация "облака" популярных запросов и т. д. Большая ложка дегтя заключается в том, что Swicki упорно не хочет сколько-нибудь прилично работать с русским языком. Да и у Rollyo в этом плане не все благополучно. Возможно поэтому, сервисы по сей день остались практически не востребованными в Рунете.

BYOMS

Достаточно оригинальную вариацию тематического поиска воплотили в жизнь разработчики системы BYOMS, что расшифровывается, как "build your own mobile search" (построй свой собственный мобильный поиск). Впрочем, к мобильному телефону сервис имеет весьма отдаленное отношение. Сеть его работы состоит в следующем. Пользователь регистрируется на сайте системы, после чего составляет список ресурсов для индексации, параллельно указывая ряд дополнительных параметров для работы. После этого пользователь получает к системе через IM-клиент (увы, поддерживается только AIM). В списке интернет-пейджера появляется новый контакт. Это бот, который воспринимает реплики пользователя в качестве поисковых запросов и отвечает результатами поиска. С мобильниками BYOMS связывает только то, что многие телефоны поддерживают работу с IM-клиентами, и в этом случае еще ярче проявляется удобство такой формы поиска. – Р.Н.

Компьютерра
Advertology.Ru

25.04.2007

на печать


Комментарии

Гость
27.05.2007 12:42 | сообщение #1
 

Подмигивать

Анна
08.06.2008 13:34 | сообщение #2
 

Отличная статья!Улыбка
Спасибо!ПодмигиватьСмущен

Анна
08.06.2008 13:35 | сообщение #3
 

Отличная статья!Подмигивать

Написать комментарий

 Проверочный код

Анализ рынков

Архив

Пн Вт Ср Чт Пт Сб Вс

Рассылка

Подписка на рассылку

E-mail:
 

Также нашу рассылку вы можете получать через

E-mail:  

на правах рекламы

Есть мнение ...

Уже 42% москвичей полностью игнорируют телевизорУже 42% москвичей полностью игнорируют телевизор
За последние семь лет каждый десятый москвич перестал включать телевизор. По данным свежего опроса Superjob, в 2025 году почти половина горожан его уже полностью игнорируют.
Личный бренд - это тренд: публичный имидж развивают 40% российских...Личный бренд - это тренд: публичный имидж развивают 40% российских...
Развитие личного бренда постепенно превращается в неотъемлемую характеристику успешного руководителя. Как выяснили эксперты hh.ru и коммуникационного агентства FAVES Communications, сразу 40% управленцев разного уровня уделяют внимание своей публичности и имиджу в профессиональной среде. Еще 28% хотели бы это делать, однако пока к этому не приступили по разным причинам.
Медиаинфляция в fashion-индустрии: за последний год стоимость клика...Медиаинфляция в fashion-индустрии: за последний год стоимость клика...
E-Promo Group представила ежеквартальный отчет по динамике уровня медиаинфляции в performance-каналах в разрезе фешн-направления (одежда, обувь, аксессуары).
Бьюти-рынок столкнулся с ростом затрат на рекламуБьюти-рынок столкнулся с ростом затрат на рекламу
E-Promo Group представила ежеквартальный отчет по динамике уровня медиаинфляции в performance-каналах в разрезе косметики и парфюмерии.
ИИ-видео: как искусственный интеллект меняет производство рекламыИИ-видео: как искусственный интеллект меняет производство рекламы
ИИ-видео революционизируют рекламу! Узнайте, как нейросети создают низкобюджетные ролики с высоким качеством

Книги по дизайну

Загрузка ...

Репортажи

Психологическая гибкость: почему без нее бизнесу не выжитьПсихологическая гибкость: почему без нее бизнесу не выжить
Advertology побывал на выступлении бизнес-психолога Евгении Хижняк на конференции SM Network 2025 и рассказывает, как оставаться успешным в мире постоянных перемен.
Дизайн под грифом "секретно"Дизайн под грифом "секретно"
На чем раньше ездили первые лица страны? Эскизы, редкие фотографии и прототипы уникальных машин.
"Наша индустрия – самодостаточна": ГПМ Радио на конференции..."Наша индустрия – самодостаточна": ГПМ Радио на конференции...
Чего не хватает радио, чтобы увеличить свою долю на рекламном рынке? Аудиопиратство: угроза или возможности для отрасли? Каковы первые результаты общероссийской кампании по продвижению индустриального радиоплеера? Эти и другие вопросы были рассмотрены на конференции «Радио в глобальной медиаконкуренции», спикерами и участниками которой стали эксперты ГПМ Радио.
Форум "Матрица рекламы" о технологиях работы в период...Форум "Матрица рекламы" о технологиях работы в период...
Деловая программа 28-й международной специализированной выставки технологий и услуг для производителей и заказчиков рекламы «Реклама-2021» открылась десятым юбилейным форумом «Матрица рекламы». Его организовали КВК «Империя» и «Экспоцентр».
В ЦДХ прошел День социальной рекламыВ ЦДХ прошел День социальной рекламы (4)
28 марта в Центральном доме художника состоялась 25-ая выставка маркетинговых коммуникаций «Дизайн и реклама NEXT». Одним из самых ярких её событий стал День социальной рекламы, который организовала Ассоциация директоров по коммуникациям и корпоративным медиа России (АКМР) совместно с АНО «Лаборатория социальной рекламы» и оргкомитетом LIME.

Форум

на правах рекламы

22.12.2025 - 14:12
RSS-каналы Advertology.RuRSS    Читать Advertology.Ru ВКонтактеВКонтакте    Читать Advertology.Ru на Twittertwitter   
Advertology.Ru - все о рекламе, маркетинге и PR
реклама

Вход | Регистрация