Ranking in Information Retrieval

Прежде всего, что такое информационный поиск. Под этим термином традиционно понимается процесс нахождения, отбора и выдачи информации (в том числе - документов, их частей и/или данных) из массивов и записей любого вида в соответствии с информационной потребностью, выраженной в форме информационного запроса. Важной особенностью информационного поиска является то, что результатом его работы является не факт извлечения документов, а то, что он информирует пользователя только о существовании и местонахождении документов, относящихся к его запросу.
При информационном поиске используются разнородные критерии и, в частности: В данном разделе рассмотрим малую часть из того, что перечислено выше. Прежде всего, это общие принципы организации информационного поиска и задачу ранжирования (упорядочивания результатов информационного поиска в локальных хранилищах). Те или иные методы организации поиска и ранжирования в глобальной сети Интернет нас интересуют только с точки зрения общего интереса (поэтому мы и рассмотрим лишь основные принципы). Разработкой и практической реализацией таких методов занимаются специалисты, обслуживающие поисковые системы, вот пусть они ими и занимаются.


Общий принцип реализации информационного поиска.

Компоненты информационно-поисковой системы.

Основные функции поиска информации.
  1. Сканирование или краулинг. Система просматривает хранилище документов и извлекает информацию о них.
  2. Индексирование документов с целью ускорения поиска.
  3. Формирование информационного запроса пользователем.
  4. Система, используя имеющийся индекс, ищет документы, относящиеся к запросу и, после построения рейтинга найденных документов, отображает полученный список для пользователя.
  5. Пользователь может дать отзыв о релевантности полученного результата поисковой системе, результатом чего будет обратная связь по релевантности.
Целью любой информационно-поисковой системы является удовлетворение потребностей пользователя в информации. К сожалению, характеристика потребности пользователей не проста. Часто запрос - это лишь смутное и неполное описание потребности в информации.
Под термином ранжирование (построение рейтинга), как правило, понимают процесс выборки поисковой машиной документов из базы данных и упорядочивание их по степени соответствия с информационным (поисковым) запросом.
Существует понятие текстового ранжирования и ранжирования по гипертекстовыми ссылками. В первом случае поисковой машиной учитываются такие факторы как, например, плотность ключевых фраз в текстах статей (документов), оформление заголовков. При ранжировании по гипертекстовыми ссылками принимаются во внимание ссылки на сайт с других ресурсов.
В основе большинства алгоритмов ранжирования документов лежит идея TF * IDF, которая учитывает частоту использования ключевых слов в текущем документе и в других документах корпуса. Кроме того, среди использованных параметров могут быть Существующие методы ранжирования документов достаточно механистические и часто опираются на формальный вид документов, подлежащих ранжированию. В случае, если документ представлен малым количеством ключевых слов и отсутствует возможность полнотекстового поиска, используются модификации TF * IDF или PCA и прочее.

Как повысить рейтинг сайта.

Алгоритмы ранжирования закрыты, можно сказать, секретны, тем не менее, есть рекомендации о том, как повысить рейтинг вашего сайта. Приведем некоторые из них.
  1. Наличие ключевого слова в имени домена (или субдомена, что похуже).
  2. Наличие ключевого слова в теге заголовка. Чем ближе ключевое слово к началу в теге заголовка, тем выше шанс получить хороший результат.

  3. Наличие ключевого слова в заголовке с тегом H1.

    Здесь чем меньше число, тем выше рейтинг в Google. Тестируемые данные имели вид
    <h1 style = "font-size: 20pt; font-family: arial; "> [NKW] </h1>
    <h1> [NKW] </h1>
    <p style = "font-size: 20pt; font-family: arial; "> [NKW] </p>
    <p> [NKW] </р>
    
  4. Возраст контента вашего сайта

  5. Размер контента вашего сайта

  6. Периодичность и масштабы обновлений контента. Добавление или удаление целых разделов является более значимым обновлением, чем изменение порядка нескольких слов.
  7. Наличие ключевого слова в первых сто словах содержимого страницы является значимым сигналом релевантности.
  8. Изображения, видео и другие мультимедийные элементы могут выступать в качестве критерия качества контента.
  9. Наличие страницы с обратной связью - «Свяжитесь с нами». Google предпочитает сайты с контактной информацией.
  10. HTML ошибки/WC3 валидация. Большое количество HTML ошибок или некачественно написанный код, являются фактором низкого качества сайта, что может сказаться на его рейтинге.
Еще несколько маленьких хитростей, позволяющих повысить рейтинг вашего сайта можно найти, например, здесь.
Хотя, в некоторых случаях можно сделать проще - устанавливаем плагин WP PostRatings, который отвечает за вывод звездочек и оценку постов. Немного фантазии и вуаля! Получаем желанный рейтинг!

Ранжирование документов по информационному запросу.

Рассмотрим несколько методов построения рейтинга документов, выбранных по информационному запросу.
Пример. Применение изложенных методов информационного поиска для базы статей научного журнала "Математичне моделювання".


Мультимедийный поиск по картинке.

Рассмотрим задачу ранжирования изображений. Пусть дано множество изображений \(\mathfrak{I}=\{\mathcal{I}_i\}_{i=1}^n\), среди которых нужно выбрать изображения, "похожие" на данное \(\mathcal{I}^0\). Чтобы найти степень похожести нужно использовать какие-то характеристики, простейший случай - использование пространственных или же частотных характеристик. С этого и начнем. В качестве тестового изображения будем использовать изображение Lena.

Для того, чтобы изображения "уравнять в правах", всю коллекцию преобразуем в картинки одного и того же размера, например, 8×8 px.

Чтобы не зависеть от цветовых характеристик, имеет смысл рассматривать только освещенность, грубо говоря - изображение в градациях серого. В простейшем случае это \[ Gray=\frac{1}{3}(Red+Blue+Green), \] хотя лучше сделать так \[ Gray=\frac{1}{256}(77\times Red+150\times Green + 29\times Blue+128). \]

Теперь можно найти среднее значение и преобразовать полученное изображение и битовое, то есть, если цвет больше среднего значения, это единица, меньше - ноль.

По сути, мы имеем код в 64 бита, которые характеризуют изображение, если у двух изображений эти коды совпадают, то можно считать, что и соответствующие изображения совпадают, чем больше отличаются изображения друг от друга, тем больше отличие этих кодов. Тем самым получаем достаточно простой алгоритм ранжирования изображений. Для более точного вычисления "похожести" изображений можно брать в качестве кода значения цвета каждого пикселя изображения 8×8 px в градациях серого.
У данного метода есть много недостатков, среди которых, первый состоит в том, что метод очень чувствителен к освещенности, поэтому, если, например, провести гамма-коррекцию, то получим другой код. Второй недостаток состоит в том, что если будем сравнивать с фрагментом изображения, а не изображения в целом, то ничего хорошего не получим.
Для того, чтобы обойти первый недостаток, можно использовать для построения кода какие-нибудь частотные характеристики. Для этой цели можно взять какое-нибудь ортогональное преобразование. Традиционно для этой цели используется преобразование Фурье, более того, дискретное косинус-преобразование. По большому счету, выбор преобразования не имеет большого значения, можно взять преобразование Хаара, Уолша, использовать ортогональные вейвлеты Добеши или биортогональные, вместо косинус-преобразования использовать полное преобразование Фурье или же преобразование Хартли. Все это не по сути. Выбор дискретного преобразования объясняется только лишь тем, что его использует JPEG. Ну что же, будем и мы его использовать, почему нет.
Прямое преобразование \[ h(x,y)=C(x)C(y)\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}Gray(i,j)\cos\frac{(2i+1)x\pi}{2N}\cos\frac{(2j+1)y\pi}{2N}, C(i)=\sqrt{\frac{2}{N}},i=0,C(i)=\sqrt{\frac{1}{N}},i=1,...,N-1. \] Обратное преобразование \[ Gray(x,y)=\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}c(i)c(j)h(i,j)\cos\frac{(2x+1)i\pi}{2N}\cos\frac{(2y+1)j\pi}{2N}. c(i)=\sqrt{\frac{1}{N}},i=0,c(i)=\sqrt{\frac{2}{N}},i=1,...,N-1. \] Для использования в качестве кода значений частотных характеристик имеет смысл выбирать те, которые соответствуют низким частотам, как наиболее информативным с точки зрения описания изображения в целом. Построим, как и в предыдущем случае, код из 64 чисел. Лучше всего для этой цели найти коэффициенты Фурье от всего изображения в целом и выбрать \(h(i,j),i,j=0,...,7\), которые и использовать в качестве кода. К сожалению, вычисление коэффициентов Фурье является достатосно затратной процедурой, поэтому нужно либо использовать быстрое преобразование Фурье, либо применять его к уменьшенной картинке. Заметим, что чем меньше картинка, к которой применим этот алгоритм, тем хуже код. Таким образом, нужен компромис. Для изображения 128×128 px

код будет иметь вид

Понятно, что из него несложно получить бинарный код.

Полезная литература. Книги.

  1. Arens, Robert James. "Learning to rank documents with support vector machines via active learning." PhD (Doctor of Philosophy) thesis, University of Iowa, 2009 .— 114 p.
  2. Buttcher S. Information Retrieval Implementing and Evaluating Search Engines / S.Buttcher, C.L.Clarke, G.V.Cormack .— Cambridge, Massachusetts, London, England: The MIT Press, 2010 .— 624 p.
  3. Crof W.B. Search Engines. Information Retrieval in Practice / W.B.Crof, D.Metzler, T.Strohman .— Pearson Education, Inc., 2015 .— 542 p.
  4. Datta J. Ranking in Information Retrieval / J.Datta; MTech Seminar Report .— Bombay: Department of Computer Science and Engineering, Indian Institute of Technology, 2010 .— 57 p.
  5. Лукашевич Н.В. Тезаурусы в задачах информационного поиска / Н.В.Лукашевич .— М.: 2010 .— 396 с.
  6. Маннинг К. Введение в информационный поиск / К.Маннинг, П.Рагхаван, Х.Шютце .— Москва, Санкт-Петербург, Киев: Вильямс, 2011 .— 512 с.
  7. Скворцов А.В.Триангуляция Делоне и её применение. – Томск: Изд-во Том. ун-та, 2002. – 128 с.
  8. Шокин Ю.И. Проблемы поиска информации / А.М.Федотов, В.Б.Барахнин.Новосибирск:Наука, 2010 .— 220 с.

Полезная литература. Статьи.

  1. Agichtein E. Improving Web Search Ranking by Incorporating User Behavior Information / E.Agichtein, E.Brill, S.Dumais // SIGIR’06 .— Seattle, Washington, USA, 2006 .— P.1-8.
  2. An Analysis of Factors Used in Search Engine Ranking / A.Bifet, C.Castillo, P.Chirita, I.Weber // AIRWeb 2005, First International Workshop on Adversarial Information Retrieval on the Web .— Chiba, Japan, 2005 .— P.1-10.
  3. Context-Aware Ranking in Web Search / [B.Xiang, D.Jiang, J.Pei та ін.] // SIGIR’10 .— Geneva, Switzerland, 2010 .— P.1-8.
  4. David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110.
  5. David G. Lowe, "Object recognition from local scale-invariant features," International Conference on Computer Vision, Corfu, Greece (September 1999), pp. 1150-1157.
  6. David G. Lowe, "Local feature view clustering for 3D object recognition," IEEE Conference on Computer Vision and Pattern Recognition, Kauai, Hawaii (December 2001), pp. 682-688.
  7. Easy Samples First: Self-paced Reranking for Zero-Example Multimedia Search / L.Jiang, D.Meng, T.Mitamura, A.Hauptmann // MM’14 .— Orlando, Florida, USA., 2014 .— P.1-10.
  8. Efron M. Estimation Methods for Ranking Recent Information / M.Efron, G.Golovchinsky // SIGIR’11 .— Beijing, China, 2011 .— P.1-10.
  9. Fuhr N. A Probability Ranking Principle for Interactive Information Retrieval / N.Fuhr // Information Retrieval .— 2008 .— №11(3) .— P.251–265.
  10. Garnerone S. Adiabatic quantum algorithm for search engine ranking / S.Garnerone, P.Zanardi, D.A.Lidar // Phys. Rev. Lett. .— 2012 .— №108 .— P.1-7.
  11. Jansen B.J. Searching for multimedia: analysis of audio, video and image Web queries / B.J.Jansen, A.Goodrum, A.Spink // World Wide Web .— 2000 .— №3 .— P.249–254.
  12. Multimedia Search Reranking: A Literature Survey / M.Tao, Y.Rui, S.Li, Q.Tian // ACM Journal Name .— 2012 .— Vol. 2, No. 3 .— P.1-36.
  13. Sparse Hashing for Fast Multimedia Search / [X.Zhu, Z.Huang, H.Cheng та ін.] // ACM Transactions on Information Systems .— 2013 .— Vol. 31, No. 2 .— P.1-24.
  14. Yuwono B. Search and Ranking Algorithms for Locating Resources on the World Wide Web / B.Yuwono, D.Lee // Proceedings of the Twelfth International Conference .— 1996 .— P.1-20.
  15. Seo N. Image matching using scale invariant feature transform (SIFT) / N.Seo, D.Schug.— P.1-17.
  16. Басипов А.А. Семантический поиск: проблемы и технологии / А.А.Басипов, О.В.Демич // Вестник АГПУ: Управление, вычислительная техника и информатика .— 2012 .— №1 .— C.104-111.
  17. Гулин А. Алгоритм текстового ранжирования Яндекса / А.Гулин, М.Маслов, И.Сегалович // РОМИП-2006 .— Москва, 2006 .— C.1-12.
  18. Зеленков Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г.Зеленков, И.В.Сегалович // «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL’2007 .— Переславль-Залесский, Россия, 2007 .— C.1-9.
  19. Пальчунов Д.Е. Решение задачи поиска информации на основе онтологий / Д.Е.Пальчунов // Бизнес-информатика .— 2008 .— №1 .— C.3-13.
  20. Федотов А.М. Проблемы поиска информации: история и технологии / А.М.Федотов, В.Б.Барахнин // Вестник НГУ: Информационные технологии .— 2009 .— №7(2) .— C.3-17.
  21. Шарапов Р.В. Система проверки текстов на заимствования из других источников / Р.В.Шарапов, Е.Шарапова // «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2011 .— Воронеж, Россия, 2011 .— C.121-126.
  22. Шумейко А.А. О выборе потенциальных ключевых слов / А.А.Шумейко, М.А.Шумейко .— C.1-13.
  23. Шумейко О.О. Ранжування документів за інформаційним запитом / О.О.Шумейко, Г.Я.Шевченко // Системні технології .— 2017 .— №2(109) .— C.110-117.

Вопрос-ответ.

Задать вопрос: