Ranking in Information Retrieval

Алгоритм краулинга S.C.E.N.T.

Результаты этого раздела любезно предоставлены С.Л. Сотником (тех. директор Iveonik Systems, г.Каменское).
В процессе деятельности компании Iveonik Systems, возникла задача извлечения текстовой информации из произвольного набора страниц сайтов. Данный процесс известен также под названием краулинга (crawling). Программный компонент, осуществляющий обход сайта, далее будет называть краулером (crawler). Краулер является весьма важной составляющей частью таких сложных и известных программных комплексов, как поисковые сервисы Google, Yahoo, Bing, Яндекс.
Одним из требований к краулеру является требование о поддержании информации о сайте в максимально релевантном состоянии. Это несложно для относительно небольших сайтов. Но реалии таковы, что зачастую краулеру не удается обойти сайт «в один присест». Это может происходить по разным причинам - небольшой канал у сайта, перегрузка сайта посетителями, огромные размеры сайта. Наконец, есть сайты, которые настолько «живые», что даже за несколько минут их содержимое (на некоторых страницах) может существенно измениться. Все это приводит к тому, что полученная при акте краулинга сайта информация оказывается неполной, либо неактуальной.
Рассмотрим задачу краулинга как задачу получения максимального количества информации при ограничении ресурсов. Интуитивно понятно, что краулер может закачать и обработать за определенный промежуток времени конечное количество информации. Это и есть тот самый ограниченный ресурс. Однако вопрос, как измерить практическую ценность добытой информации, является уже не столь интуитивным. Будем считать, что информационная ценность страницы зависит от количества символов в её текстовом представлении. Чем больше символов, тем более информативна страница. С другой стороны, для человека зачастую очень длинные страницы имеют ценность, не пропорциональную их длине. Попытаемся отразить это, используя логарифмическую меру: \[ I(i)=\log\left(ActualSize(i)-DeletedSize(i)\right). \] Здесь ActualSize – размер актуального контента (который был в версии, сохраненной в индексе и имеется в существующем контенте), DeletedSize – суммарный размер контента, который отсутствует в текущей версии, но был в индексированной, либо наоборот. Суммарную же информационную емкость индекса мы можем оценить как: \[ Q(j)=\sum_{i=0}^{N(j)}I(i). \] Здесь Q(j) – суммарная стоимость (цена) индекса для сайта j. N(j) – множество документов сайта (в том числе, удаленных сейчас). Примем, что на проверку каждой страницы нам необходимо время: \[ T(i)=A\times size(i)+B. \] Здесь A – коэффициент временных расходов, зависящих от размера документа (страницы), а B – накладные расходы на установление соединения и другие операции, не зависящие от размера.
Теперь мы готовы описать задачу краулинга, как задачу максимизации информационной стоимости индекса при ограниченных временных ресурсах: \[ Q(j)\to \max \sum T\lt T_{max}; \Delta t(0)\equiv const. \] Здесь мы также положили, что время между запусками краулера представляет собой константу. Т.е., расходы на индексацию сайта гораздо меньше, чем расходы на индексацию всего множества сайтов, обрабатываемых краулером.
Предлагаемый алгоритм оптимизации обхода (названный S.C.E.N.T.) немного навеян муравьиными алгоритмами и является самоорганизующимся.
Каждая страница наделяется свойством "запаха" (scent). Проверка страницы уменьшает запах в 2 раза. При этом, если "паучком"-краулером был собран "урожай" (информация), то запах страницы увеличивается на величину, пропорциональную "урожаю". На каждом шаге выбираются страницы, у которых "запах" был самым сильным. После каждого шага, каждой странице (не только проверенные) добавляется DeltaS единиц запаха. На псевдокоде это можно описать следующим образом:

void CrawlerIteration() {
  List<Page> pages = GetPagesFromDB().SortByScent();
  for(int i=0; i<PagesForProcessing; ++i) {
    pages[i].Scent /= 2;
    pages[i].Scent += CalcInfo(CheckPage(pages[i]));
  }
  foreach(Page page in pages) {
    page.Scent += DeltaS;
  }
}
double CalcInfo(int differenceInBytes) {
  return Math.Log(page.Size + 1);
}

Основной вопрос, который сейчас исследуется - характер оценочной функции (CalcInfo) и значение константы DeltaS, от которой зависит характер обхода в случае, если сайт невозможно обойти за один "присест".
DeltaS=0 - Страницы, которые несколько раз оказались неизмененными, перестанут обходиться. DeltaS\(\to\infty\) - Сайт будет обходиться равномерно, невзирая на то, что часть страниц изменяется чаще, часть - реже.
Оптимальное значение DeltaS, разумеется, находится где-то посредине. Эксперименты показывают, что при хорошо подобранных настройках, данный алгоритм дает \(Q(j)\) до 98% от максимально возможной (для сайтов со статической и динамической составляющей).

Краткий обзор алгоритмов ранжирования для World Wide Web.

Классика жанра - алгоритм Google PageRank и его обобщения.

Алгоритм Google PageRank, разработанный в 1998 году аспирантами Стэнфордского университета Сергеем Брином и Ларри Пейджем (Larгy Page) представляет собой тот трамплин, который позволил вывести Google в лидеры IT-корпораций. Поэтому, несмотря на то, что еще в октябре 2014 года Джон Мюллер (John Mueller - ведущий аналитик компании Google) сообщил, что Google больше не будет обновлять PageRank, последний апдейт которого состоялся в декабре 2013-го, и с начала 2016 года проект PageRank окончательно закрыт, есть смысл на нем остановиться. Все же классика.
Ссылочное ранжирование (PageRank) представляет собой вариацию на тему индекса цитируемости. Значение PageRank лежит в пределах от нуля до десяти и чем больше это значение, тем более высокий рейтинг у данного сайта. Критерием PageRank является количество обратных ссылок. Значение PageRank (PR) определяется согласно соотношению \[ PR=(1-d)+d\sum_{i=1}^n\frac{PR_i}{C_i}, \] где \(PR\)-PageRank данного сайта, \(d-\) коэффициент демпфирования, который в классической постановке равен 0.85 (вероятность перехода по одной из ссылок, имеющихся на текущей странице), \(PR_i\)-PageRank \(i-\)й страницы, ссылающейся на данный сайт, \(C_i-\) общее число ссылок на \(i-\)й странице.
Рассмотрим модельную ситуацию. Пусть есть главная станица, с которой связаны еще две страницы A и B. Стартовые значения PageRank у каждой из них равны единице. Ссылка со страницы В на страницу А повышает PageRank страницы А до двух, аналогично, переход на В повышает рейтинг В. Если добавляем страницу С и связываем ее с предыдущими, то PageRank страницы А снизится с двух до полтора, в то время, как у страницы С повысится с одного до полтора. Добавление дополнительных ссылок ничего не изменит.
Теперь рассмотрим следующую конструкцию - сайт имеет главную страницу, страницу-каталог и три страницы, посвященные разной продукции. Нетрудно видеть, что связь каждой страницы между собой даст странице-каталогу PageRank=2.

А связь всех страниц через страницу-каталог приведет к тому, что у этой страницы PageRank=5.

Итак, время алгоритма Google PageRank прошло, что дальше?

Google Panda выход - 23 февраля 2011 года.
Главной задачей этого алгоритма является очистка рейтинга от сайтов низкого качества. Как достигается эта цель? Panda учитывает объем контента на странице и его обновляемость. Таким образом приоритет дается объемным часто обновляемым интернет-ресурсам.

Google Penguin выход - 24 апреля 2012 года.
Целью алгоритма является подавление сайтов с неестественными обратными ссылками. Это могут быть сайты с ссылками из «ссылочных ферм» или других платных ссылок, множество ссылок с сайтов, которые не имеют отношения к веб-сайту, ссылки на низкокачественные сайты, и ссылки, которые неестественно оптимизированы ключевыми словами. Кроме того, санкции фильтра Google Penguin можно получить за дублирование контента и большое количество рекламы на главной странице.

Google Hummingbird выход - 26 сентября 2013 года.
Алгоритм Колибри был разработан для того, чтобы лучше понимать запросы пользователей. Если ранее Google возвращал результаты, которые были сосредоточены на ключевых словах, содержащихся в вопросе, то Hummingbird анализирует вопрос, определяя его цель или смысл, а затем дает соответствующие ответы. Например, если пользователь вводит запрос «Где можно вкусно поесть», поисковая система понимает, что под словом «где» пользователь подразумевает рестораны и кафе.

Google Pigeon выход - 24 июля 2014 года.
Целью обновления является улучшение качества обработки локальных запросов путем предоставления пользователям более релевантных результатов. В этом случае Google, опираясь на Google Maps, использует такие факторы, как местоположение и расстояние.

Google RankBrain выход - 26 октября 2015 года.
Данный алгоритм основан на механизме обучения с использованием нейронных сетей. Возможности его туманны.

Алгоритм ранжирования Yandex.

В основе построение рейтинга Yandex лежит следующее соотношение \[ Score=W_{single}+W_{pair}+k_1\times W_{AllWords}+k_2\times W_{Phrase}+k_3\times W_{HalfPhrase} \] где \(W_{single}\)- вклад слов из запроса в документе,
\(W_{pair} -\) вклад пар слов из запроса в документе,
\(W_{Phrase} -\) вклад текста запроса в целом,
\(W_{AllWords} -\) вклад всех слов из запроса.

Детальнее,

Вклад слова из запроса \[ W_{single}=\log(p)\times (TF_1+0.2\times TF_2) \] где \[ TF_1=\frac{TF}{TF+k_1+k_2\times DocLength},k_1=1,k_2=\frac{1}{350}, TF_2=\frac{Hdr}{1+Hdr}, p=1-\exp\left(-1.5\times\frac{CF}{D}\right). \] Здесь
TF-число вхождений лексемы (слова) в документ,
DocLength - длина документа в словах,
Hdr - сумма весов слова за форматирование,
CF-количество вхождений лексемы слова в коллекцию,
D- количество документов в коллекции.
Учет пар слов. \[ W_{pair}=0.3\times\left(\log{p_1}+\log{p_2}\right)\times\frac{TF}{1+TF}, \] \(p_1,p_2\) те же, что и для \( W_{single}\).
Учет всех слов. \[ W_{AllWords}=0.2\times\sum{\log{p_i}\times 0.03^{N_{miss}}} \] где \(N_{miss}-\) число слов запроса, которые отсутствуют в документе.
Учет запроса в целом \[ W_{Phrase}=0.1\times\sum{\log{p_i}\times \frac{TF}{1+TF}}. \]
Учет части запроса \[ W_{HalfPhrase}=0.02\times\sum{\log{p_i}\times \frac{TF}{1+TF}}. \]

Использование векторной модели документа.

В разделе "линейный дискриминантный анализ" была рассмотрена конструкция близости документов, представленных как векторы. В качестве критерия близости использовалось значение косинуса угла между этими векторами.
Для этого случая на первом шаге последовательно обрабатываются все множества словоформ \(b^\nu ,\nu = 0,...,M- 1 \), принадлежащие множеству документов \(B = \left\{ {b^\nu } \right\}_{\nu =0}^{M - 1} \). По множеству словоформ каждого обрабатываемого текста \(b^\nu \) строится множество уникальных (неповторяющихся) словоформ и их счетчики - \(\left( {w_i^\nu ,n_i^\nu } \right)\left( {i = 0,...,N^\nu - 1} \right) \).
Здесь \(N^\nu \)- количество уникальных словоформ для текста \(b^\nu \). После этого данные для каждого множества отдельно нормируются \[ \overline {n} _i^\nu = \frac{n_i^\nu }{\sqrt {\sum\limits_{j = 0}^{N^\nu - 1} {\left( {n_j^\nu } \right)^2} } }\left( {i = 0,...,N^\nu - 1} \right). \] Затем, упорядочиваем все слова для каждого документа в одном и том же порядке (сам порядок слов не существенен, главное, чтобы слова в каждой из структур \(\left( {w_i^\nu ,n_i^\nu } \right)\left( {i = 0,...,N^\nu - 1} \right) \) шли в одном и том же порядке) и находим сумму всех векторов \(n_i\left( B \right) = \sum\limits_{j = 0}^{M - 1} {\overline {n}_i^\nu } \left(i = 0,...,N\left( B \right) \right)\) (где \(N(B)- \) количество уникальных словоформ для \(B \) в целом) и нормируем ее единицей \[ \overline {n}_i\left( B \right) = \frac{n_i\left( B \right)}{\sqrt {\sum\limits_{j = 0}^{N(B)} {\left(n_j\left( B \right) \right)^2} } }. \] В результате каждому документу (в также и информационному запросу) ставится в соответствие единичный вектор, критерием близости документа к информационному запросу будет значение угла между соответствующими векторами.
Приведем иллюстрацию, если \(d_i -\) множество документов и \(q -\) информационный запрос

то \(\vec{v}(d_i) -\) нормированный вектор документа \(d_i\) и \(\vec{v}(q) -\) нормированный вектор информационного запроса

Чем меньше угол между вектром информационного запроса и документом, тем более высокий рейтинг у данного документа.
Предложенный метод неэффективен, если слово (словоформа, лексема) из информационного запроса отсутствует в документе, или же используется синоним, например, "спортсмен"-"атлет", "приближение"-"аппроксимация" и пр. В этом случае используется семантический поиск, что существенно усложняет алгоритм.

TF-IDF.

J.Rocchio (Rocchio J. Relevance Feedback in Information Retrieval, in Salton / J. Rocchio // The SMART Retrieval System: Expriments in Automatic Document Processing .− Prentice-Hall, 1971 .− Chapter 14 .− P. 313-323) для решения задачи автоматической классификации объектов аэрокосмической съемки, предложил алгоритм TF-IDF (term frequency / inverse document frequency).
По сути, TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству использований этого слова в документе и обратно пропорционален частоте использования слова в других документах коллекции.
Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова \(t_i\) в пределах отдельного документа \(d\) \[ TF(d,t_i)=\frac{n_i}{\sum_{k}n_k}, \] где \(n_i\) есть число вхождений слова \(t_i\) в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово \(t_i\) встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов \[ IDF(t_i)=\log\frac{|D|}{|d\supset t_i|}, \] где \(|D|\) — количество документов в корпусе; \(|d\supset t_i|\) — количество документов, в которых встречается \(t_i\) (когда \(n_i\ne 0\)).
Таким образом, мера TF-IDF является произведением двух сомножителей: TF*IDF. Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
С точки зрения теории информации, если словоформа \(t_i\) встречается в \(n_i\) документах среди всех \(N\) документов, то \(t_i\) будет в случайно выбранном документе с вероятностью \(n_i/N\). Таким образом, доля информации, содержащейся в утверждении «документ \(d\) содержит слово \(t_i\)» равна \[ -\log\frac{n_i}{N}=\log\frac{N}{n_i}. \] Таким образом, если \(q=\{t_i\}\) - информационный запрос, состоящий из словоформ \(t_i\), то критерием близости информационного запроса к документу \(d\), может служить значение \[ score(q,d)=\sum_{t\in q}IDF(t)\times \frac{TF(d,t)}{|d|}, \] где \(|d|\) - количество слов (словоформ, лексем) в документе \(d\).

Алгоритм Okapi BM25 – модификация TF-IDF.

BM25 – представляет собой обобщение TF-IDF, полученное Стивеном Робертсоном и Кареном Спарк Джоунсом еще в 1994 году.
Приведем расчетные формулы: \[ TF(d,t_i)=\frac{n_i*(k_1+1)}{n_i+k_1*\left(1-b+b*\frac{\sum_{k}n_k}{avDoc}\right)}, \] где, как и ранее, \(n_i\) число вхождений слова \(t_i\) в документ \(d\), \(\sum_{k}n_k\) — общее число слов в данном документе \(d\) и \(avDoc\) - средняя длина документа в корпусе, а \(k_1\) и \(b\) — свободные коэффициенты, чаще всего выбираются \(k_1=2, b=0.75\). \[ IDF(t_i)=\log\frac{|D|-|d\supset t_i|+0.5}{(|d\supset t_i|+0.5)}, \] и функция качества \[ score(q,d)=\sum_{t\in q}IDF(t)\times TF(d,t). \]

Вероятностное ранжирование.

Основной вопрос вероятностного ранжирования состоит в следующем: «Какова вероятность того, что документ является релевантным с учетом данного запроса?» Здесь предполагается, что релевантность документа относительно информационного запроса не зависит от других документов в коллекции. Таким образом, вероятностный принцип ранжирования состоит в следующем:
Если ранжирование документа в коллекции проводится в порядке убывания вероятности релевантности относительно информационного запроса, то вероятности оцениваются точно так же.
Формально, учитывая документ \(d\) и запрос \(q\), мы оцениваем документ согласно вероятности того, что этот документ является релевантным \(P(R=1|d,q)\), где \(R\) - случайная величина, принимающая значение 1, если \(d\) является релевантным относительно \(q\) и значение 0, в противном случае.
Таким образом, если мы выбираем документы, наиболее подходящие к информационному запросу, то эти документы должны удовлетворять условию \[ P(R=1|d,q)\gt P(R=0|d,q). \] Положим \[ RF()=\frac{P(R=1|d,q)}{P(R=0|d,q)}. \] Используя теорему Байеса, получаем \[ RF()=\frac{\frac{P(R=1|q)P(d|R=1,q)}{P(d|q)}}{\frac{P(R=0|q)P(d|R=0,q)}{P(d|q)}}= \frac{P(R=1|q)}{P(R=0|q)}\times \frac{P(d|R=1,q)}{P(d|R=0,q)}. \] Так как первая дробь от документа не зависит, то \[ RF()= \frac{P(d|R=1,q)}{P(d|R=0,q)}= \frac{P(t_1|R=1,q)\cdot P(t_2|t_1,R=1,q)\cdots P(t_m|t_1\cdot t_{m-1},R=1,q)} {P(t_1|R=0,q)\cdot P(t_2|t_1,R=0,q)\cdots P(t_m|t_1\cdots t_{m-1},R=0,q)}= \prod_{i=0}^m\frac{P(t_i|t_1\cdots t_{i-1},R=1,q)}{P(t_i|t_1\cdots t_{i-1},R=0,q)}, \] где \(m -\)количество слов информационного запроса.
Если считать, что если выпадение каждого слова является независимой случайной величиной (наивное Байесовское предположение), то получаем \[ RF()= \prod_{i=0}^m\frac{P(t_i|R=1,q)}{P(t_i|,R=0,q)}. \] Пусть \[ x_t=\left\{ \begin{array}{ll} 1, & \hbox{ если \(t\in d\);} \\ 0, & \hbox{ если \(t\neq d\).} \end{array} \right. \] Тогда \[ RF()= \prod_{t:x_t=1}\frac{P(t|R=1,q)}{P(t|,R=0,q)}\cdot \prod_{t:x_t=0}\frac{P(t|R=1,q)}{P(t|,R=0,q)}. \] Пусть \(p_t=P(t|R=1,q)\)- вероятность того, что слово \(t\) будет в релевантном документе, и \(u_t=P(t|R=0,q)\) - вероятность того, что слово \(t\) будет в нерелевантном документе, тогда \[ RF()= \prod_{t:x_t=1}\frac{p_t}{u_t}\cdot \prod_{t:x_t=0}\frac{1-p_t}{1-u_t}. \] Сделаем еще одно предположение - пусть слова, отсутствующие в информационном запросе могут появиться в любом документе (\(y_t=1\)), то есть они никаким образом не влияют на релевантность относительно информационного запроса, тогда \[ RF()= \prod_{t:x_t=y_t=1}\frac{p_t}{u_t}\cdot \prod_{t:x_t=0,y_t=1}\frac{1-p_t}{1-u_t}= \prod_{t:x_t=y_t=1}\frac{p_t(1-u_t)}{u_t(1-p_t)}\cdot \prod_{t:[x_t=0\vee 1],y_t=1}\frac{1-p_t}{1-u_t}. \] Тогда, учитывая, что последнее произведение от \(x_t\) не зависит, переопределим RF() \[ RF()= \prod_{t:x_t=y_t=1}\frac{p_t(1-u_t)}{u_t(1-p_t)}. \] Далее, прологарифмируем это соотношение, снова переопределив RF() \[ RF()= \log\prod_{t:x_t=y_t=1}\frac{p_t(1-u_t)}{u_t(1-p_t)}= \sum_{t:x_t=y_t=1}\log\frac{p_t(1-u_t)}{u_t(1-p_t)}= \sum_{t:x_t=y_t=1}\log\frac{p_t}{1-p_t}+\log\frac{1-u_t}{u_t}=\sum_{t:x_t=y_t=1}c_t. \] Таким образом, \(c_t\)- логарифм отношения вероятности того, что слово \(t\) будет в релевантном документе, к вероятности того, что \(t\) попадет в нерелевантный документ.
Найдем оценку \(c_t\). Пусть \(N\) общее число документов, \(R-\) общее число релевантных документов, \(r_t\) число релевантныхдокументов, содержащих слово \(t\) и \(n_t\) количество документов, в которых встречается слово \(t\).

Документ		Релевантный	Нерелевантный	Всего
Слово присутствует	\(x_t=1\)	\(r_t\)	\(n_t-r_t\)	\(n_t\)
Слово отсутствует	\(x_t=0\)	\(R-r_t\)	\((N-n_t)-(R-r_t)\)	\(N-n_t\)
Всего		\(R\)	\(N-R\)	\(N\)

Тогда \[ p_t=\frac{r_t}{R},u_t=\frac{n_t-r_t}{N-R} \] и \[ c_t=\log\frac{r_t(N-n_t-R+r_t)}{(R-r_t)(n_t-r_t)}. \] Чтобы избежать нулей (слово присутствует/отсутствует в каждом документе), применим сглаживание, прибавив константу, в нашем случае это 0.5 \[ c_t=\log\frac{(r_t+0.5)(N-n_t-R+r_t+0.5)}{(R-r_t+0.5)(n_t-r_t+0.5)}. \] В случае, если информация о релевантности отсутствует, положим \(p_t=0.5\), тогда \(c_t\) зависят только от \(u_t\). Считая, что слова в нерелевантных документах распеределены равномерно, то есть \(u_t\approx n_t/N\), получаем \[ c_t\approx \log\frac{0.5}{1-0.5}+\frac{1-\frac{n_t}{N}}{\frac{n_t}{N}}=\log\frac{N-n_t}{n_t}. \] А так как \(n_t\) по отношению к общему числу документов \(N\), достаточно мало, то \[ c_t\approx \log\frac{N}{n_t}. \] Заметим, что в этом случае критерий ранжирования совпадает с IDF.

Использование информационного вклада для ранжирования документов по запросу.

Рассмотрим метод построения текстового ранжирования имеющегося корпуса документов в соответствии с информационным вкладом в них составляющих информационного запроса.
Пусть имеется корпус документов, каждый из которых определен частотным словарем словоформ, входящих в него \(D_k=\left\{w^k_i:n^k_i\right\} (k=1,...,N)\), а через \(S=\{s_i\}\) обозначим информационный запрос.
Нужно провести ранжирование корпуса документов \(\{D_k\}_{k=1}^N\) в соответствии с информационным запросом \(S\). В основе предложенного метода ранжирования лежит идея использования изменения значения энтропии при объединении документов. Отметим, что такого рода конструкции используются при решении оптимизационных задач теории информации, например, при построении деревьев решений С4.5 и др.
В дальнейшем нам потребуются следующие понятия:
В качестве меры неопределенности случайного объекта (системы) \(A\) с конечным множеством возможных состояний \(A_1,A_2,...,A_n\) и соответствующей вероятностью выпадения \(p_1,p_2,...,p_n\), Клод Шеннон предложил использовать функционал \[ H(A)=H(p_1,...,p_n)=-\sum_{k=1}^np_k\log{p_k}, \] называемый информационной энтропией. Логарифмы берутся при произвольному основанию, но в случае, если за единицу измерения степени неопределенности принять неопределенность, содержащуюся в опыте с ровно двумя вероятными результатами (например, присутствует элемент в некотором множестве или отсутствует), то следует брать основание равным двум. Отметим, что при заданном \(n\) величина энтропии максимальна и равна \(\log{n}\) лишь в случае, когда все \(p_i\) равны между собой, то есть \(p_1=p_1=...=p_n=\frac{1}{n}\).
Таким образом \[ H(D_k)=-\sum_{i=1}^{N_i}\frac{n_i^k}{N_k}\log_2\frac{n_i^k}{N_k}, \] где \(N_k\)- общее число словоформ в документе \(D_k\), а \(n_i^k=num(w_i^k)\)- число вхождений словоформы \(w_i^k\) в данном текущем документе (\(num (s)\) - число вхождений слова \(s\)).
Для двоичного случае, в случае, если среди \(n\) состояний системы \(A\) имеются \(m\), которые обладают некоторым свойством \(V\), то энтропия по отношению к свойству \(V\) будет равна \[ H(A,V)=-\frac{m}{n}\log_2\frac{m}{n}-\frac{n-m}{n}\log_2\frac{n-m}{n}. \] Если использовать некий атрибут \(Q\), который имеет \(q\) значений, то необходимо определить прирост информации, который измеряет ожидаемый уровень энтропии (разницу между информацией от \(A\) и информацией, необходимой для определения элемента из \(A\) после того, как значение атрибута \(Q\) было определено, то есть, прирост информации благодаря атрибуту \(Q\)): \[ G(A,Q)=H(A)-\sum_{j=1}^q\frac{|A_j|}{|A|}H(A_j,V), \] где \(A_j\)- множество состояний \(A\), для которых атрибут \(Q\) принимает \(i\)-е значение, а \(|X|\) - число элементов множества \(X\).
Для нашего случая, величина энтропии документа \(D_k\) относительно слова \(s_i\) из информационного запроса \(S\) будет равна \[ H(D_k,s_i)=-\frac{num(s_i)}{N_k}\log_2\frac{num(s_i)}{N_k}-\frac{N_k-num(s_i)}{N_k}\log_2\frac{N_k-num(s_i)}{N_k}. \] Величина прироста энтропии будет равна \[ H(D_k,S)=H(D_k)-\sum\left\{\left.\frac{num(s_i)}{N_k}H(D_k,s_i)\right|s_i\in S\right\}. \] Чем больше будет значение прироста энтропии, тем больше наш документ будет отличаться от информационного запроса.
С другой стороны, значение энтропии зависит от количества состояний системы (в нашем случае от количества словоформ, которые описывают документ), поэтому для ранжирования нам надо определение не абсолютного значения изменения значения энтропии, а относительного, то есть \[ \bar{H}(D_k,S)=\frac{1}{H(D_k)}\left(H(D_k)-\sum\left\{\left.\frac{num(s_i)}{N_k}H(D_k,s_i)\right|s_i\in S\right\}\right), \] которое позволяет оценить снижение уровня энтропии документа, если известна информация о ключевых словах (составляющих информационного поиска). Значение \(\bar{H}(D_k,S)=1\) указывает на тот факт, что данный документ \(D_k\) никакого отношения к данному информационному запросу не имеет, то есть информация \(s_i\in S\) не меняет общий объем информации об \(D_k\), и чем меньше значение \(\bar{H}(D_k,S)\), тем меньше степень неопределенности \(D_k\) относительно \(S\).

Рассмотрим пример.

№	Документ	Описание документа
1	Васильев Ф.П. "Методы оптимизации"	оптимизация, функция, минимизация, дифференциальные уравнения, численные методы
2	Корнейчук Н. П., Лигун А. А., Доронин В.Г. "Аппроксимация с ограничениями"	аппроксимация, неравенство, приближения, сплайн
3	Лоран П. - Ж. "Аппроксимация и оптимизация"	сплайн, аппроксимация, интерполяция, экстраполяция, оптимизация
4	Самарский А.А., Гулин А.В. "Численные методы математической физики"	аппроксимация, разности, дифференциальные уравнения
5	Лебедев П. Д., Ушаков А. В. "Аппроксимация множеств на плоскости оптимальными наборами кругов"	сеть, круг, аппроксимация, кривая, многоугольник
6	Бляшке В. "Круг и шар"	круг, слой, минимизация, симметрия
7	Леонтьев В. "Экономические эссе"	круг, интерес, экономика, политика
8	Смит Р. С, Эренберг Р. Дж. "Coвременная экономика труда"	труд, политика, экономика

Добавим к описанию документа словоформы из названия документа и получим для каждого документа частотный словарь.
После вычисления значения энтропии получим

№	Частотный словарь	Энтропия \(H(D_k)\)
1	оптимизация-2, функция-1, минимизация-1, дифференциальные уравнения-1, численные методы-1	2,251629
2	аппроксимация-2, неравенство-1, приближения-1, сплайн 1, ограничения-1	2,251629
3	сплайн-1, аппроксимация-2, интерполяция-1, экстраполяция-1, оптимизация-2	2,235926
4	аппроксимация-1, разности-1, дифференциальные уравнения-1, численные методы-1, математическая физика -1	2,321928
5	сеть-1, круг-2, аппроксимация-2, кривая-1, многоугольник-1, плоскость-1	2,500000
6	круг-2, слой-2, минимизация-1, симметрия- 1	1,918296
7	круг-1, интерес-1, экономика-2, политика-1	1,921928
8	труд-2, политика-1, экономика-2, современность-1	1,918296

В качестве примера информационного запроса возьмем текстовую строку «аппроксимация круговым сплайнами», который после преобразования в словоформы будет иметь вид «аппроксимация, круг, сплайн».
Далее найдем количество информации, необходимой для определения элемента из текущего документа, если известное слово (словоформа) из информационного запроса.

№	аппроксимация	круг	сплайн
1	0,000000	0,000000	0,000000
2	0,918296	0,000000	0,650022
3	0,863121	0,000000	0,591673
4	0,721928	0,000000	0,000000
5	0,811278	0,811278	0,000000
6	0,000000	0,918296	0,000000
7	0,000000	0,721928	0,000000
8	0,000000	0,000000	0, 000000

Значение 0 показывает, что данное слово в описании документа отсутствует, поэтому никоим образом не влияет на соотношение текущего документа с данным словом из информационного запроса. Далее найдем общий объем информации, необходимой для определения элемента из текущего документа по всему множеству составляющих информационного поиска, затем вычислим абсолютное значение изменения энтропии при условии наличия информации по составляющим информационного поиска, и, наконец, значение относительного изменения уровня энтропии. По полученным значениям найдем рейтинг документов относительно данного информационного запроса.

№	\(\sum\left\{\left.\frac{num(s_i)}{N_k}H(D_k,s_i)\right\|s_i\in S\right\}\)	\(H(D_k,S)\)	\(\bar{H}(D_k,S)\)	Рейтинг
1	0,000000	2,25163	1,000000	7
2	0,414436	1,83719	0,815940	1
3	0,331131	1,9048	0,851905	4
4	0,144386	2,17754	0,937816	6
5	0,405639	2,09436	0, 837744	2
6	0,306099	1,6122	0,840432	3
7	0,144386	1,77754	0,924875	5
8	0,000000	1,9183	1,000000	8

Отметим, что так как данный метод не несет семантической составляющей, то, к сожалению, никак не учитывается общая направленность документа, поэтому имеет смысл сделать некоторое обобщение алгоритма, формируя новый запрос на основе полученной информации.

В результате наших построений, имеем значение вклада слов информационного поиска в каждый документ \(D_k\), тогда можно считать, что и другие слова данного документа связанны со словоформам информационного запроса. Таким образом, вес каждого слова документа (относительно словоформ информационного поиска) может быть рассчитан следующим образом \[ \bar{W}(D_k,S)=\frac{1}{H(D_k)}\left(\sum\left\{\left.\frac{num(s_i)}{N_k}H(D_k,s_i)\right|s_i\in S\right\}\right), \] кроме оригинальных словоформ информационного поиска, вес которых равен 1, то есть \[ \bar{W}(D_k,s_i)= \left\{ \begin{array}{ll} \bar{W}(D_k,S), & s_i\notin S \\ 1, & s_i\in S. \end{array} \right. \]

№	1	2	3	4	5	6	7	8
\(\bar{W}(D_k,S)\)	0	0,18406	0,1481	0,06218	0,16226	0,15957	0,07513	0

Общее весовое значение для каждого слова из нового информационного запроса вычислим следующим образом \[ \bar{W}(s_i)= \left\{ \begin{array}{ll} \frac{1}{\sum\left\{1|s_i\in D_k\right\}}\sum\left\{\left.\bar{W}(D_k,S)\right|s_i\in D_k\right\}, & s_i\notin S \\ 1, & s_i\in S. \end{array} \right. \] Сформируем новый информационный запрос, который будет состоять со всех ключевых слов документов корпуса, кроме тех, которые имеют нулевой рейтинг и найдем относительный прирост энтропии с учетом веса \[ \bar{H}(D_k,S)=\frac{1}{H(D_k)}\left(H(D_k)-\sum\left\{\left.\bar{W}(s_i)\frac{num(s_i)}{N_k}H(D_k,s_i)\right|s_i\in S\right\}\right), \] и уже по данной величине определим рейтинг документов с учетом всей информации, которая входит в корпус и связана с информационным запросом.

№	\(\sum\left\{\left.\bar{W}(s_i)\frac{num(s_i)}{N_k}H(D_k,s_i)\right\|s_i\in S\right\}\)	\(\bar{H}(D_k,S)\)	Рейтинг
1	0,0693569	0,9692	7
2	0,4742572	0,78937	2
3	0,3926891	0,82437	4
4	0,1802972	0, 92235	6
5	0,5372771	0,78509	1
6	0,3895175	0,79695	3
7	0,1952600	0,8984	5
8	0,0311366	0,98377	8

Таким образом, рейтинг документов изменился с учетом словоформ расширенного информационного запроса.

Можно вообще снять приоритет словоформ информационного запроса и приравнять права запроса с правами документа. В этом случае считаем, что на первом этапе мы указали на приоритеты поиска, а на втором позволяем подправить поиск с учетом всех документов, то есть \[ \bar{W}(s_i)=\frac{\sum\left\{\left.\bar{W}(D_k,S)\right|s_i\in D_k\right\}}{\sum\left\{1\left|s_i\in D_k\right.\right\}} \] для всех словоформ. В этом случае имеем

№	\(\sum\left\{\left.\bar{W}(s_i)\frac{num(s_i)}{N_k}H(D_k,s_i)\right\|s_i\in S\right\}\)	\(\bar{H}(D_k,S)\)	Рейтинг
1	0,069357	0,9692	7
2	0,202380	0,91012	3
3	0,175197	0,92164	4
4	0,080671	0,96526	6
5	0,265499	0,8938	1
6	0,190553	0,90067	2
7	0, 101409	0,94724	5
8	0,031137	0,98377	8