INJUN # 576871: Улучшение релевантности тегов

Ни для кого не секрет, что эффективное использование тегов возможно только при соблюдении некоторых условий, а именно при некоторой степени организованности сообщества, которое эти теги использует. Даже если классификацию создает один человек, и в дальнейшем пользуется ей сам – возникают проблемы, связанные со вложенностью тегов, с неоднозначностью коротких идентификаторов, с объектами, которые могут быть отнесены к одной единственной категории. Что уж здесь говорить о фолксономии, классификации объектов сотнями и тысячами участников, использующих классификацию для разных целей, в том числе спама. Предложение, которое описывает Трэвис Ридер (Travis Reeder), состоит в присвоении тегам для данного объекта некоторого числового параметра, описывающего популярность тега среди пользователей-классификаторов. Он называет это Мульти-таггированием (Multi-User Tagging).

Проблемы классификации одним пользователем:
* Ошибки при присвоении категории объекту
* Использование персональных тегов, ничего не говорящих остальному сообществу, например тегов типа «Джон» или «Зебра», в этом случае значение тега слишком размыто чтобы быть понятным.
* Присвоение тега может преследовать цели, отличные от классификации, например спам.

Некоторые рекомендации:
1. Классификация тег-пользователь-объект. Сайты, которые используют теги для классификации должны предлагать возможность сохранять персональные теги для личного использования. Del.icio.us и Fickr в полной мере удовлетворяют этому требованию.
2. Ранжирование тегов. Позволять пользователям проголосовать за тег, чтобы повысить его значимость для данного объекта. Del.icio.us делает это с помощью подсчета числа пользователей, присвоивших этому объекту тот же тег, а Flickr и большинство других систем не позволяют присвоить объекту один и тот же тег более одного раза. Вместо этого следовало бы повышать ранг данного тега при подобной попытке.
Следование этим рекомендациям позволит сделать классификацию более точной. Когда большое число пользователей присваивают некоторый тег объекту, велика вероятность что описываемый объект действительно должен быть классифицирован таким образом. Представим, что 100 человек присвоили тег «Зебра» одному объекту, и лишь один человек присвоил тег «Зебра» другому объекту.
Какова вероятность, что в первом случае объектом является животное, а во втором пешеходный переход?
Использование рейтинга тега для объекта также позволяет осуществлять эффективный поиск по тегам. Чем меньше рейтинг данного тега у объекта, тем ниже он должен находиться в результатах запроса.

ЗЫ: Огромное человеческое спасибо Ивану Спарку и русскоязычному сообществу Web 2.0.