ArtReal's tau: Поиск глазами пользователей

Поиск глазами пользователей

17.05.13

Мы ищем с точностью до 8 нанобитов,
каждую секунду мы индексируем 1024 с половиной сайтов,
мы индексируем все, что пингуется,
режим overdrive — находятся даже те страницы,
которых никогда не существовало.
(рекламно-поисковое)

Поисковые технологии считаются одной из достаточно динамичных и интенсивно развивающихся технологий, и напоминают осьминога, стремящегося захватить своими щупальцами всю информацию, до которой может дотянуться. И, если раньше мы, пользователи, подстраивались под поисковую систему, то теперь поисковые системы пытаются подстраиваться под пользователя.

Но у разработчиков свои представления о том, в каком направлении должны развиваться поисковые технологии, а у пользователей, как ни странно, несколько иные. Поэтому давайте посмотрим на поисковые технологии глазами пользователя.

Бирюльки

С точки зрения пользователя, последнее время развивается не инновационность поиска, а извращенность. Только небольшой процент пользователей систематически использует «продвинутые» поисковики, позволяющие разложить в визуальный ряд и по полочкам кластеры, пирожки и связи. Остальные относятся к таким поисковикам как к игрушкам. Да, красиво, интересно и позволяет провести неспешное исследование области поиска (что, как и с чем связано, и на что влияет), но если требуется что-то быстро найти — тут уж извините: нам не шашечки, а ехать. Тем более, что собственная индексная база у таких продвинутых поисковиков или отсутствует, или небольшая.

Чего же хочет пользователь? А пользователю хочется странного — внести поисковую строку и получить небольшой, но достаточный список результатов (линков на сайты и страницы), на которых пользователь найдет именно то, что хотел. Откуда поисковик их возьмет и как догадается, что именно пользователь хотел найти — это пользователю фиолетово, а «проблемы негров шерифа не интересуют» (то есть, как этого добьются поисковики пользователя волнует мало).

Распознавание образов

Одна из проблем, с которой постоянно сталкивается пользователь — то, что поисковики ищут не по смыслу, а по тексту. Легко найти текст по цитате или уникальной ключевой фразе — если вы ее помните. А если нет? Если я не знаю, какими словами он (текст) писался? Еще хуже ситуация, когда вы не знаете, по каким словам искать нужные сайты; скажем, если вы ищете информацию по незнакомой вам предметной области. Например, начинающему юзеру хочется найти софтину, которая позволит вести электронный блокнот (записную книжку) с поддержкой древовидной структуры. О том, что этот тип программы называется оутлайнер (outliner), он может догадаться только случайно.

У «социального поиска» (звонок другу в icq, помощь зала, форума или сообщества), который в такой ситуации справляется лучше, есть свои нюансы. Кроме того, «социальный поиск» не обладает холодной беспристрастностью, свободой выбора, и способен навязывать не лучшие решения.

Поисковые системы пытаются помочь пользователю, потроша тезаурус и подбирая синонимы к словам и выражениям. Но чаще это приводит к увеличению мусора в результатах, чем к реальной помощи. Самостоятельно управлять степенью вовлеченности тезауруса в поиск пользователю не дают. А зря.

При поиске в неизвестной предметной области обычно советуют найти (неизвестно какими путями) какой-то сайт по этой предметной области и по нему составить «поисковый словарик», используя который искать все остальные ресурсы и материалы.

Поскольку такой метод неудобный и требует ручной работы, то пользователю хочется эту работу спихнуть на поисковик. Проще говоря, пользователю требуется нечеткий поиск («не знаю точно, что хочу найти»). Реализуется он методом поисковой вилки: сначала идет режим «предварительного прицеливания», позволяющий шаг за шагом сузить область поиска и сформировать правильный поисковый словарик, после чего по этому словарику и осуществляется поиск.

Хорошие результаты получаются, если предварительный поиск идет по семантике, а уже потом происходит переход на «линейный поиск».

Актуализация

Еще одним неудобством для пользователя является недостаточное внимание поисковика к актуализации. То есть поисковая система должна в первую очередь индексировать новый контент, а остальное — по графику (или как придется). Это и называется «тактика быстрого и медленного индексирования». Если новая статья опубликована — то она должна быть проиндексирована в тот же день. Многие поисковики к этому относятся халатно, а для персональных поисковиков это больной вопрос — у них слишком простые планировщики.

Хотя определенные успехи в деле актуализации и оптимизации индексирования есть — Гугль, например, использует для оптимизации sitemap.

Приручение поисковика

Времена, когда поисковая система выдавала нейтральные результаты, ориентированные на безликую серую массу, проходят. Теперь пользователь хочет, чтобы поисковая система выдавала результаты с учетом его интересов, то есть — персонализацию. Каким образом поисковая система это обеспечит — пользователя не особенно волнует. Многие не будут возражать, если поисковая система будет не только отслеживать их поисковые запросы, клики на результатах, движение мыши в окне браузера… вплоть до составления «индивидуального поискового профиля» (анонимного, разумеется, без привязки к фамилии, месту работы и паспортным данным) — главное, чтобы результаты поиска были для конкретного человека (это, кстати, означает, что два разных человека на одном и том же поисковом запросе получат разные результаты).

Пользователь даже готов обучать поисковик (и настраивать «личную релевантность») в интерактивном режиме.

Но все это с условием, что при необходимости можно запретить использовать профиль, чтобы получить «нейтральные» (чистые, не персонализированные) результаты поиска.

Smartass AI

Не так давно Сергей Брин рассказал о ближайших планах по освоению «искусственного интеллекта». А поскольку основой Гугля является поиск, то несложно догадаться, куда этот интеллект будет прикручен. Теоретически эта штука должна отгадывать, что же хотел найти пользователь, введя какие-то слова в поисковую строку.

Практически же — никто не даст гарантии, что эта штука отгадает правильно. Потому как «все, что можно понять неправильно — понимается неправильно», согласно закону Мерфи. И, как следствие, «хуже непреднамеренной ошибки может быть только сознательное введение в заблуждение».

Но, с другой стороны, новый гугловский интеллект может стать неплохим и удобным интерфейсом между пользователем и поисковым движком в деле настройки, обучения и персонализации.

Deep Web

Некоторые сайты, как ни странно, не состоят из страниц, а строят их динамически по запросу пользователя. То есть, работают как типичная база данных (database): пользователь в формочке оформляет запрос, а система подбирает данные и выводит их на странице (я несколько утрирую). Проиндексировать такие сайты поисковый паук не может из-за отсутствия явной страничной организации.

Поэтому, по некоторым оценкам, индексируется лишь около 20% от общей «информационной массы». Но скрытые 80% (которые и есть «глубокий веб») — это достаточный стимул, чтобы изобрести и отладить механизм, позволяющий пауку туда добраться. Чем, собственно, ведущие поисковые системы и занимаются.

Только вот не факт, что пользователю станет от этого лучше. Мало того, что возрастет выдача в результатах запроса, так еще в лучших традициях web 2.0 начнется многократное дублирование информации «из первоисточников».

А что семантика?

Говоря о семантике, важно понимать, что удивительный мир Semantic Web, который нам нарисовал Тим Бернерс-Ли, отличается от поисковика, использующего семантику для поиска. Потому как семантика — это, в основном, не поисковые технологии, а агрегативные. Но использование семантики при поиске может неплохо помочь поиску. Вопрос, однако, в том, где эту семантику взять.

С одной стороны, поисковики могли бы индексировать не только html, но и семантику, но ее (семантику) не дают производители контента. С другой стороны, производитель контента не готов предоставлять семантику, поскольку непонятно, как и в каком формате ее готовы брать.

Ситуация осложняется еще и тем, что от наиболее динамичной и мобильной части создателей контента (и шума, соотвественно) семантики можно и не дождаться. К примеру, 90% блоггеров, пишущие (в среднем) по паре абзацев текста, вряд ли будут уделять внимание хорошему и корректному заполнению семантических данных, затраты на которых могут превысить затраты на саму запись. А с учетом того, что актуальность записи в блоге в среднем составляет 3–7 дней, такое занятие представляется сомнительным. Десять тегов воткнуть значительно проще.

Кстати, ни в одном блоговском движке не предусмотрено системное внесение метаинформации к записи.

Что же касается традиционных сайтов, то они более инертны, и, скорее всего, будут ждать уже работающей технологии — просто так, без конфетки, никто не будет перелопачивать большой объем контента.

Что в такой ситуации делать поисковой системе? Пытаться самостоятельно «вытянуть» семантику из индексируемого текста.

Для этого есть два метода:

- восстановление семантики с использованием структурно-лингвистических алгоритмов;
- подбор семантики по шаблону, то есть по совпадению ряда значимых слов; если ряд укладывается в шаблон — создается семантический элемент.

Семантику проще не восстанавливать, а подбирать по шаблону — это более простая и менее затратная технология. Но восстановление семантики дает более надежные и лучшие результаты.

Но на переходной период (до появления полномасштабного Semantic Web) такой подход (теоретически) может значительно улучшить поиск. А это хорошо для пользователя, поскольку дает возможность «логического» (смыслового) поиска.

Кода

Из всего вышесказанного следует одна простая мысль — надо не только совершенствовать поисковые алгоритмы, но и уделять больше внимания индивидуальному подходу к пользователю. Потому как пользователь оценивает эффективность и качество поиска не по техническим характеристикам черного ящика a.k.a. поисковая система, а по тому, насколько быстро и удобно он получит нужные ему результаты и не получит ненужные. Строить технологии нужно исходя из потребностей пользователя, а не отталкиваясь от того, что может предложить пользователю поисковая система.

И еще нужно понимать, что для дальнейшего серьезного развития поиска поисковые технологии и алгоритмы должны измениться качественно и перейти на новый уровень, а не варьироваться в виде концептуальных (и не очень) надстроек к существующей (классической) поисковой технологии.

Webplanet: 12.03.2007

Tau

personal lab: Искусство перпендикулярного хвоста

Поиск глазами пользователей