Читать онлайн «Алгоритм текстового ранжирования Яндекса»

Автор Михаил Маслов

Кроме описания самого алгоритма рассмат- риваются полученные результаты, и обсуждается примени- мость описанного алгоритма для поиска по большому вебу. 1. Введение Поисковые системы Интернета учитывают много факторов для определения релевантности страницы запросу пользователя. Одним из важнейших факторов является содержимое документа. Для улуч- шения этого аспекта ранжирования документов в Яндексе мы созда- ли экспериментальную поисковую систему под кодовым названием atr, описанную в данной статье. В результате проведения дорожек по поиску РОМИП в 2004 и 2005 годах накопилось значительное количество оцененных с точки зрения релевантности пар “запрос- документ”. На основании этих данных мы составили набор факторов для вычисления оценки релевантности, которые реализовали в сис- теме atr. 2. Факторы, использованные в алгоритме ранжирования atr Цель поисковой системы, рассматриваемой в данной статье – ранжирование документов (html страниц) коллекции по релевантно- сти запросу. Для ранжирования использовался текст запроса, текст документа и некоторые элементы html-разметки документа. Для каждого запроса мы вычисляем значение Score документа – показатель релевантности документа запросу, на основании которо- го и производится ранжирование.
Сортировка выдачи поисковой системы по Score увеличивает average precision, precision at N и дру- гие метрики качества поиска, основанные на оценке релевантности каждого документа по отдельности. Для расчета Score была выбрана аддитивная модель. Интерес представляет вопрос какие слагаемые надо добавить в формулу расчета Score. В результате экспериментов были отобраны слагае- мые за встречаемость слов из запроса в документе (Wsingle), за встре- чаемость пар слов из запроса в докумументе ( W pair ) и за встречае- мость текста запроса целиком ( WPhrase ). Помимо этого есть два сла- гаемых, дающих преимущество за наличие всех слов запроса в до- кументе ( WAllWords ) и за наличие многих слов запроса в одном пред- ложении ( WHalfPhrase ). Итоговая формула выглядит следующим обра- зом: Score = Wsin gle + W pair + k1 * W AllWords + (1) k 2 * WPhrase + k 3 * WHalfPhrase + WPRF Для улучшения результатов поиска был также использован под- ход “Pseudo-relevance feedback” [6]. Суть подхода заключается в том, что мы проводим поиск в два этапа. На первом этапе мы используем простой метод, описанный выше. После этого документы, найден- ные на первых позициях, мы объявляем релевантными, и ищем «по- хожие».