Web 2.0 и тэговый спам
17.05.13Зачем мне ваша флейта? Я через нее противника не могу наблюдать…
(Наполеон)
Вначале был текст. Потом, чтобы различать тематику текстов, придумались ключевые слова.
Когда блоггеры столкнулись с той же проблемой поиском и группировке записей по определенной теме, то применили тот же механизм ключевые слова.
Тэги
С ростом социализации глобальной сети и распространением идей фолксономии в ход пошла несколько переработанная «версия» ключевых слов тэги (tags). Реинкарнация потребовалась
Технически же тэги от ключевых слов мало чем отличаются, главным образом упрощением: таги (в отличие от ключевых слов) не могут быть иерархическими и состоять из нескольких слов.
Отличие тэгов от ключевых слов в основном в «схемах использования». Если ключевые слова чаще всего отражают основные темы записей (статей) и ориентированы на «внутреннее использование», то тэги ориентированы на «экспорт» (хотя никто не запрещает их использовать и локально) в общую копилку (распределенная фолксономия возможна, но сложна в реализации). Копилка может быть как глобальной (Technorati), так и не очень (на уровне сервиса; например, diigo).
Наличие копилки приводит к двум интересным моментам:
- для тэгов лучше не использовать уникальные слова они будут тонуть на фоне частоупотребимых и, соответственно, «вылетать» из «облака тэгов» популярного средства презентации тэгов посетителям,
- поиск, если его специально не ограничивать, будет идти по этой копилке и показывать результаты сразу из нескольких источников при достаточно условной релевантности.
Кроме того, тэги это максимальное упрощение классификаторов, так как более продвинутые системы массовый лемминг может и не освоить ему нужны максимально простые и удобные возможности.
Шумы
Такие нюансы и приводят к тому, что в тэгах присутствуют не только главные темы, но и все упомянутые в заметке или статье темы. Поэтому ситуация, когда на десять предложений в заметке приходится десять тэгов вполне нормальная. Чем больше тэгов тем больше вероятность, что статью (заметку) найдут. Так сайты и становятся генераторами шума (кстати, если взять текст заметки, выкинуть общеупотребимые слова, а оставшиеся использовать в качестве тэгов то получится весьма продвинутый генератор шума).
Обратная сторона такого подхода при поиске по
В итоге: искать (делать выборку) по тэгам можно, но толку от этого мало шумов много. Соответственно, эффективность использования тагов составляет порядка 10% от возможной.
Зашумление, кстати, проблема не только тэгов, но и остальных социальных инструментов Web 2.0.
Гадкие спаммеры
Пользователям Web 2.0 невероятно везет. Спаммеры пока еще мало внимания обращают на социальные сети и сервисы. Но как только обратят все сильные стороны (которые и привлекают пользователей) тут же станут их слабым местом. Например, в один прекрасный момент вы с удивлением обнаружите, что в закладочном сервисе по тэгу «php» выдаются линки не на php, а на порнуху, хотя их описание практически совпадает с «правильными».
Если спаммеры перейдут с массовых методов ковровой бомбардировки на использование более тонких социальных методов (на использовании которых и основаны Web 2.0 сервисы и сети), то деваться будет уже некуда, так как спам будет распознаваться только в последний момент. Тогда же, наверное, и появится термин «социальный спам». По крайней мере, термины «тэговый дорвей» или «дорвей в стиле Web 2.0» уже есть. А фильтров, способных противостоять такой технологии, пока нет. В «Яндексе» вообще полагают, что спамить тэги нет смысла.
В этой ситуации сервисы действительно ничего не проигрывают, а вот пользователи… пользователи будут вынуждены обратиться к информационным посредникам и менеджерам знаний.
Webplanet: 20.11.2006