Статьи

Каждому по поиску

Каждому по поискуНаступившая эпоха Web 2.0 затронула и поисковики. Один за другим появляются различные специализированные поисковые системы (такие как scholar.google.com, google.com/codesearch, koders.com), в данной статье автор хотел бы поделиться своими впечатлениями о сервисах, позволяющие создать свой тематический поисковик

Первая ласточка

Около года назад ЗАО "Поисковые технологии" запустило бета-версию "Персонального поиска" в рамках проекта "Новотека" (personal.novoteka.ru), который позволил желающим создавать свои тематические поисковые системы. Для использования сервиса "Новотека" предлагает несколько вариантов использования, в том числе и бесплатный (в результатах поиска которого демонстрируется реклама). Платные варианты отличаются размером дисковой квоты и количеством разрешенных за месяц запросов. Так же, они позволяют экспортировать результаты поиска в XML-формате.

Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты (страницы, с которых начнется индексация содержимого сайта) и маски, по которым робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гб – этого объема достаточно в большинстве случаев. Некоторые из поисковиков, разработанными на базе "Новотеки" оказались достаточно популярными. Например, поиск по антивирусных сайтам от Игоря Ашманова -  public.novoteka.ru/antivirus или по ресурсам для поисковых оптимизаторов public.novoteka.ru/seoteka.

Несмотря на жесткие правила по регистрации новых посетителей, уже опубликовано более 550 поисковых систем на различные темы, от поиска по электронным библиотекам и научным сайтам до поисков по недвижимости и тендерам.

Следующим этапом эволюции "Персонального поиска" станет проект Flexum (www.flexum.ru), запуск которого запланирован на дни выхода данной статьи в печать. Как обещают разработчики, пользователи "Персонального поиска" будут автоматически перенесены во Flexum, но об этом чуть позже.

Гигант поиска, в т. ч. тематического

Через несколько месяцев после запуска "Персонального поиска", и Google объявил об открытии сервиса "Google Custom Search Engine" (google.com/coop/cse). Поисковому гиганту нет нужды в выделении каких-либо дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую огромную базу.

Как раз благодаря использованию уже готовой глобальной базы, нет необходимости в использовании поискового робота, достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE достаточно гибка, проста и интуитивно понятна. Она заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам тэги, выбирая которые, пользователь сможет еще больше конкретизировать свой запрос.

В отличие от "Персонального поиска", Google CSE не представляет возможности экспорта результатов в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от "Новотеки" не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она жизненно необходима, но в ряде случаев довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы использовать более краткий вариант: site.ru/(hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В "Персональном поиске" нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены статьи различной тематики. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name/. А во втором соответственно  site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с "Персональным поиском" оба способа одинаково удобны: задается одна или несколько точек входа – по количеству страниц оглавлений разделов – и статьи, на которые они ссылаются, будут проиндексированы.

В Google CSE очень просто работать со ссылками первого типа: для каждого раздела достаточно добавить фрагмент текста, который присутствует в адресах входящих в него статей – "site1.ru/category_name". Со вторым типом возникают проблемы. Если указать строку "site2.ru", то в поиске будут задействованы статьи всех разделов, даже ненужных. В таких случаях можно добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое занятие, если статей на сайте сотни. К счастью, большинство качественных ресурсов использует первый способ адресации статей и разделов.

Рассматривая Google CSE, стоит также отметить возможность показа объявлений Google AdSense в тематическом поиске, которые приносят автору поисковика дополнительный доход. Также сервис Google позволяет выводить на странице поиска список наиболее популярных запросов.

Отсутствие у "Новотеки" общих поисковых баз не стоит однозначно трактовать как недостаток. "Персональный поиск" предоставляет возможность создания своей собственной поисковой базы. Некоторые веб-страницы по различным причинам могут отсутствовать в индексе Google. "Персональный поиск" лишен этого недостатка и в базу будет включено точно то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Потенциал Flexum

Как в Google CSE так и в будущем Flexum автор может приглашать к себе соавторов для совместной работы над настройкой своего поиска. Но в Flexum это более явно выделено в концепцию "социального поиска". Вокруг создателей поисковых систем организуется социальная сеть, в которой они могут общаться, искать себе новых соавторов, давать друг другу права на работу со своими поисковыми системами (добавлять, редактировать описания или удалять сайты из поисковой системы, работать с тэгами), оценивать качество работы других поисковых систем и т.д.

Все это позволяет в будущем создать на основе Flexum социальную саморегулируемую поисковую систему, построенную самими участниками-авторами Flexum.

Кроме того, в Flexum автор имеет большие возможности по управлению поисковой системой, такие как:

- редактирование релевантности, то есть назначение каким-либо сайтам своего поиска более высокого веса, чем остальным.
- создание тематических статей-объявлений, связанных с поисковыми запросами и появляющихся в поисковой выдаче выше результатов обычного поиска.
- заимствование описания сайтов у других авторов.

Кроме стандартного списка документов, присутствующих в любой поисковой системе, пользователь может увидеть реферат найденного документа, автоматически построенный по тексту документа и заданному пользователем запросу, тем самым можно оценить, насколько информация в документе соответствует запросу пользователя, перед тем как непосредственно перейти на выбранный сайт. Описанные возможности Flexum реализованы в  действительно удобном интерфейсе, построенном на AJAX.

В заключение, хотелось бы отметить, что двумя вышеперечисленными сервисами весь  список онлайн-средств для создания тематических поисковиков. Например, есть Rollyo (rollyo.com) и Swicki (swicki.eurekster.com). Последний имеет большую социальную составляющую, так как его удобно адаптировать не только к определенной тематике, но и конкретному онлайн-комьюнити. К тому же этот сервис отличает ряд интересных возможностей, таких как самообучение на основе прошлых запросов, демонстрация "облака" популярных запросов и т. д. Большая ложка дегтя заключается в том, что Swicki упорно не хочет сколько-нибудь прилично работать с русским языком. Да и у Rollyo в этом плане не все благополучно. Возможно поэтому, сервисы по сей день остались практически не востребованными в Рунете.

BYOMS

Достаточно оригинальную вариацию тематического поиска воплотили в жизнь разработчики системы BYOMS, что расшифровывается, как "build your own mobile search" (построй свой собственный мобильный поиск). Впрочем, к мобильному телефону сервис имеет весьма отдаленное отношение. Сеть его работы состоит в следующем. Пользователь регистрируется на сайте системы, после чего составляет список ресурсов для индексации, параллельно указывая ряд дополнительных параметров для работы. После этого пользователь получает к системе через IM-клиент (увы, поддерживается только AIM). В списке интернет-пейджера появляется новый контакт. Это бот, который воспринимает реплики пользователя в качестве поисковых запросов и отвечает результатами поиска. С мобильниками BYOMS связывает только то, что многие телефоны поддерживают работу с IM-клиентами, и в этом случае еще ярче проявляется удобство такой формы поиска. – Р.Н.

Компьютерра
Advertology.Ru

25.04.2007

на печать


Комментарии

Гость
27.05.2007 12:42 | сообщение #1
 

Подмигивать

Анна
08.06.2008 13:34 | сообщение #2
 

Отличная статья!Улыбка
Спасибо!ПодмигиватьСмущен

Анна
08.06.2008 13:35 | сообщение #3
 

Отличная статья!Подмигивать

Написать комментарий

 Проверочный код

Архив

Пн Вт Ср Чт Пт Сб Вс

Рассылка

Подписка на рассылку

E-mail:
 

Также нашу рассылку вы можете получать через

E-mail:  

Есть мнение ...

Apple тайно закупает рекламу в Google для роста дохода с комиссий App...Apple тайно закупает рекламу в Google для роста дохода с комиссий App...
Apple тайно закупает в Google рекламу некоторых дорогих и популярных приложений из App Store — таким образом компания старается нарастить свой комиссионный доход, выяснил американский Forbes.
Как понять, что подрядчик ворует ваш рекламный бюджет Как понять, что подрядчик ворует ваш рекламный бюджет
На рынке контекстной и таргетированной рекламе существует много и схем и лазеек для воровства. Некоторые подрядчики этим пользуются. Причём этим промышляют и солидные рекламные агентства, и фрилансеры и инхаус-специалисты. Для простоты в этом тексте буду называть их подрядчиками. Опишу четыре признака, которые указывают на возможное воровство или растрату вашего рекламного бюджета.
Реклама в спорте и ее значениеРеклама в спорте и ее значение
Роль рекламы в развитии спорта. Типы спортивного маркетинга с конкретными примерами и основные методы продвижения спортивных клубов. 
"Дом. Вчера. Сегодня. Завтра?". Как меняется восприятие..."Дом. Вчера. Сегодня. Завтра?". Как меняется восприятие...
Специалисты Школы коммуникаций НИУ ВШЭ совместно с телеканалом о доме и ремонте HGTV Home&Garden провели исследование, используя инструменты семиотики – науки об использовании знаков и их систем в общении. Задачей исследования было разобраться, каким пространство дома видит массовая культура и какие трансформации произошли с самим понятием дома за последние годы.
Более 40% журналистов и пиарщиков страдают от недосыпаБолее 40% журналистов и пиарщиков страдают от недосыпа
Дневная сонливость, трудности с засыпанием и ночные пробуждения осложняют жизнь 40% работников медиаиндустрии, свидетельствуют результаты опроса*, проведенного производителем носимых устройств Garmin и крупнейшей в России платформой онлайн-рекрутинга hh.ru. За последние полтора года журналисты чаще работников других отраслей жаловались на то, что стали хуже спать.

Книги по дизайну

Загрузка ...

Репортажи

"Наша индустрия – самодостаточна": ГПМ Радио на конференции..."Наша индустрия – самодостаточна": ГПМ Радио на конференции...
Чего не хватает радио, чтобы увеличить свою долю на рекламном рынке? Аудиопиратство: угроза или возможности для отрасли? Каковы первые результаты общероссийской кампании по продвижению индустриального радиоплеера? Эти и другие вопросы были рассмотрены на конференции «Радио в глобальной медиаконкуренции», спикерами и участниками которой стали эксперты ГПМ Радио.
Форум "Матрица рекламы" о технологиях работы в период...Форум "Матрица рекламы" о технологиях работы в период...
Деловая программа 28-й международной специализированной выставки технологий и услуг для производителей и заказчиков рекламы «Реклама-2021» открылась десятым юбилейным форумом «Матрица рекламы». Его организовали КВК «Империя» и «Экспоцентр».
В ЦДХ прошел День социальной рекламыВ ЦДХ прошел День социальной рекламы
28 марта в Центральном доме художника состоялась 25-ая выставка маркетинговых коммуникаций «Дизайн и реклама NEXT». Одним из самых ярких её событий стал День социальной рекламы, который организовала Ассоциация директоров по коммуникациям и корпоративным медиа России (АКМР) совместно с АНО «Лаборатория социальной рекламы» и оргкомитетом LIME.
Форум "Матрица рекламы": к рекламе в интернете особое...Форум "Матрица рекламы": к рекламе в интернете особое...
На VII Международном форуме «Матрица рекламы», прошедшем в ЦВК «Экспоцентр» в рамках международной выставки  «Реклама-2018», большой интерес у профессиональной аудитории вызвала VI Конференция «Интернет-реклама».
87% компаний используют три и более каналов для внутренних...87% компаний используют три и более каналов для внутренних...
«Лучшие кейсы по внутрикорпоративным коммуникациям. Ключевые тенденции последнего времени. Изменения стремительны, успеваем ли мы за ними?» - данную тему 25 апреля 2018 года обсудили на заседании  Комитета по внутрикорпоративным  коммуникациям Ассоциации менеджеров.

Форум

Вакансии

  • Загрузка ...

на правах рекламы

28.11.2021 - 03:24
RSS-каналы Advertology.RuRSS    Читать Advertology.Ru на Facebookfacebook    Читать Advertology.Ru ВКонтактеВКонтакте    Читать Advertology.Ru на Twittertwitter   
Advertology.Ru - все о рекламе, маркетинге и PR

Вход | Регистрация