Поиск глазами пользователей
17.05.13Мы ищем с точностью до 8 нанобитов,
каждую секунду мы индексируем 1024 с половиной сайтов,
мы индексируем все, что пингуется,
режим overdrive находятся даже те страницы,
которых никогда не
(рекламно-поисковое)
Поисковые технологии считаются одной из достаточно динамичных и интенсивно развивающихся технологий, и напоминают осьминога, стремящегося захватить своими щупальцами всю информацию, до которой может дотянуться. И, если раньше мы, пользователи, подстраивались под поисковую систему, то теперь поисковые системы пытаются подстраиваться под пользователя.
Но у разработчиков свои представления о том, в каком направлении должны развиваться поисковые технологии, а у пользователей, как ни странно, несколько иные. Поэтому давайте посмотрим на поисковые технологии глазами пользователя.
Бирюльки
С точки зрения пользователя, последнее время развивается не инновационность поиска, а извращенность. Только небольшой процент пользователей систематически использует «продвинутые» поисковики, позволяющие разложить в визуальный ряд и по полочкам кластеры, пирожки и связи. Остальные относятся к таким поисковикам как к игрушкам. Да, красиво, интересно и позволяет провести неспешное исследование области поиска (что, как и с чем связано, и на что влияет), но если требуется
Чего же хочет пользователь? А пользователю хочется странного внести поисковую строку и получить небольшой, но достаточный список результатов (линков на сайты и страницы), на которых пользователь найдет именно то, что хотел. Откуда поисковик их возьмет и как догадается, что именно пользователь хотел найти это пользователю фиолетово, а «проблемы негров шерифа не интересуют» (то есть, как этого добьются поисковики пользователя волнует мало).
Распознавание образов
Одна из проблем, с которой постоянно сталкивается пользователь то, что поисковики ищут не по смыслу, а по тексту. Легко найти текст по цитате или уникальной ключевой фразе если вы ее помните. А если нет? Если я не знаю, какими словами он (текст) писался? Еще хуже ситуация, когда вы не знаете, по каким словам искать нужные сайты; скажем, если вы ищете информацию по незнакомой вам предметной области. Например, начинающему юзеру хочется найти софтину, которая позволит вести электронный блокнот (записную книжку) с поддержкой древовидной структуры. О том, что этот тип программы называется оутлайнер (outliner), он может догадаться только случайно.
У «социального поиска» (звонок другу в icq, помощь зала, форума или сообщества), который в такой ситуации справляется лучше, есть свои нюансы. Кроме того, «социальный поиск» не обладает холодной беспристрастностью, свободой выбора, и способен навязывать не лучшие решения.
Поисковые системы пытаются помочь пользователю, потроша тезаурус и подбирая синонимы к словам и выражениям. Но чаще это приводит к увеличению мусора в результатах, чем к реальной помощи. Самостоятельно управлять степенью вовлеченности тезауруса в поиск пользователю не дают. А зря.
При поиске в неизвестной предметной области обычно советуют найти (неизвестно какими путями)
Поскольку такой метод неудобный и требует ручной работы, то пользователю хочется эту работу спихнуть на поисковик. Проще говоря, пользователю требуется нечеткий поиск («не знаю точно, что хочу найти»). Реализуется он методом поисковой вилки: сначала идет режим «предварительного прицеливания», позволяющий шаг за шагом сузить область поиска и сформировать правильный поисковый словарик, после чего по этому словарику и осуществляется поиск.
Хорошие результаты получаются, если предварительный поиск идет по семантике, а уже потом происходит переход на «линейный поиск».
Актуализация
Еще одним неудобством для пользователя является недостаточное внимание поисковика к актуализации. То есть поисковая система должна в первую очередь индексировать новый контент, а остальное по графику (или как придется). Это и называется «тактика быстрого и медленного индексирования». Если новая статья опубликована то она должна быть проиндексирована в тот же день. Многие поисковики к этому относятся халатно, а для персональных поисковиков это больной вопрос у них слишком простые планировщики.
Хотя определенные успехи в деле актуализации и оптимизации индексирования есть Гугль, например, использует для оптимизации sitemap.
Приручение поисковика
Времена, когда поисковая система выдавала нейтральные результаты, ориентированные на безликую серую массу, проходят. Теперь пользователь хочет, чтобы поисковая система выдавала результаты с учетом его интересов, то есть персонализацию. Каким образом поисковая система это обеспечит пользователя не особенно волнует. Многие не будут возражать, если поисковая система будет не только отслеживать их поисковые запросы, клики на результатах, движение мыши в окне браузера… вплоть до составления «индивидуального поискового профиля» (анонимного, разумеется, без привязки к фамилии, месту работы и паспортным данным) главное, чтобы результаты поиска были для конкретного человека (это, кстати, означает, что два разных человека на одном и том же поисковом запросе получат разные результаты).
Пользователь даже готов обучать поисковик (и настраивать «личную релевантность») в интерактивном режиме.
Но все это с условием, что при необходимости можно запретить использовать профиль, чтобы получить «нейтральные» (чистые, не персонализированные) результаты поиска.
Smartass AI
Не так давно Сергей Брин рассказал о ближайших планах по освоению «искусственного интеллекта». А поскольку основой Гугля является поиск, то несложно догадаться, куда этот интеллект будет прикручен. Теоретически эта штука должна отгадывать, что же хотел найти пользователь, введя
Практически же никто не даст гарантии, что эта штука отгадает правильно. Потому как «все, что можно понять неправильно понимается неправильно», согласно закону Мерфи. И, как следствие, «хуже непреднамеренной ошибки может быть только сознательное введение в заблуждение».
Но, с другой стороны, новый гугловский интеллект может стать неплохим и удобным интерфейсом между пользователем и поисковым движком в деле настройки, обучения и персонализации.
Deep Web
Некоторые сайты, как ни странно, не состоят из страниц, а строят их динамически по запросу пользователя. То есть, работают как типичная база данных (database): пользователь в формочке оформляет запрос, а система подбирает данные и выводит их на странице (я несколько утрирую). Проиндексировать такие сайты поисковый паук не может
Поэтому, по некоторым оценкам, индексируется лишь около 20% от общей «информационной массы». Но скрытые 80% (которые и есть «глубокий веб») это достаточный стимул, чтобы изобрести и отладить механизм, позволяющий пауку туда добраться. Чем, собственно, ведущие поисковые системы и занимаются.
Только вот не факт, что пользователю станет от этого лучше. Мало того, что возрастет выдача в результатах запроса, так еще в лучших традициях web 2.0 начнется многократное дублирование информации «из первоисточников».
А что семантика?
Говоря о семантике, важно понимать, что удивительный мир Semantic Web, который нам нарисовал Тим
С одной стороны, поисковики могли бы индексировать не только html, но и семантику, но ее (семантику) не дают производители контента. С другой стороны, производитель контента не готов предоставлять семантику, поскольку непонятно, как и в каком формате ее готовы брать.
Ситуация осложняется еще и тем, что от наиболее динамичной и мобильной части создателей контента (и шума, соотвественно) семантики можно и не дождаться. К примеру, 90% блоггеров, пишущие (в среднем) по паре абзацев текста, вряд ли будут уделять внимание хорошему и корректному заполнению семантических данных, затраты на которых могут превысить затраты на саму запись. А с учетом того, что актуальность записи в блоге в среднем составляет 37 дней, такое занятие представляется сомнительным. Десять тегов воткнуть значительно проще.
Кстати, ни в одном блоговском движке не предусмотрено системное внесение метаинформации к записи.
Что же касается традиционных сайтов, то они более инертны, и, скорее всего, будут ждать уже работающей технологии просто так, без конфетки, никто не будет перелопачивать большой объем контента.
Что в такой ситуации делать поисковой системе? Пытаться самостоятельно «вытянуть» семантику из индексируемого текста.
Для этого есть два метода:
- восстановление семантики с использованием
- подбор семантики по шаблону, то есть по совпадению ряда значимых слов; если ряд укладывается в шаблон создается семантический элемент.
Семантику проще не восстанавливать, а подбирать по шаблону это более простая и менее затратная технология. Но восстановление семантики дает более надежные и лучшие результаты.
Но на переходной период (до появления полномасштабного Semantic Web) такой подход (теоретически) может значительно улучшить поиск. А это хорошо для пользователя, поскольку дает возможность «логического» (смыслового) поиска.
Кода
Из всего вышесказанного следует одна простая мысль надо не только совершенствовать поисковые алгоритмы, но и уделять больше внимания индивидуальному подходу к пользователю. Потому как пользователь оценивает эффективность и качество поиска не по техническим характеристикам черного ящика a.k.a. поисковая система, а по тому, насколько быстро и удобно он получит нужные ему результаты и не получит ненужные. Строить технологии нужно исходя из потребностей пользователя, а не отталкиваясь от того, что может предложить пользователю поисковая система.
И еще нужно понимать, что для дальнейшего серьезного развития поиска поисковые технологии и алгоритмы должны измениться качественно и перейти на новый уровень, а не варьироваться в виде концептуальных (и не очень) надстроек к существующей (классической) поисковой технологии.
Webplanet: 12.03.2007