Multidimensional data visualization

Человек достаточно хорошо анализирует двумерные, или, в крайнем случае, трехмерные данные, однако большинство информации, которая требует анализа, имеет существенно большую размерность. Что же делать? Для того, чтобы помочь исследователю провести анализ имеющихся данных, используют методы визуализации, сводя многомерные данные к дву- или трехмерным. Различные инструменты для визуализации многомерных данных можно найти на веб-сайте Science Hunter.
Рассмотрим пример. Достаточно часто информация задана в виде квадратной таблицы удаленностей объектов друг от друга. На пересечении \(i\)-ой строки и \(j\)-oro столбца в такой таблице стоит значение, определяющее отличие (или сходство) \(i\)-ro и \(j\)-ro объекта. Такое представление информации характерно для различного рода исследований, когда человеку предлагается оценивать сходство или различие в некоторой системе объектов или понятий.
Відстані між обласними центрами України
  Місто 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Таким образом, изначально каждому объекту не сопоставляется никакой координаты в многомерном пространстве, и, представить такие данные в виде некоторой геометрической интерпретации достаточно сложно. Задача многомерного шкалирования заключается в том, чтобы так сконструировать распределение данных в пространстве, чтобы расстояния между объектами соответствовали значениям, заданным в матрице удаленностей. Возникающие при этом координатные оси могут быть интерпретированы как некоторые факторы, значения которых определяют различия объектов между собой, например, главные направления, определяемые с помощью МГК (PCA). В таком случае, поставив в соответствие каждому объекту пару координат, получим способ визуализации данных.


Иллюстрация многомерного шкалирования.

В линейном методе метрического шкалирования применяется метод главных компонент, но не к исходной матрице расстояний, а к дважды центрированной матрице, у которой среднее значение чисел в любой строке и столбце равно нулю.
Дважды центрированная матрица однозначно вычисляется по исходной. После этого, существует возможность определить размерность пространства, обеспечивающего точное воспроизведение матрицы удаленностей, либо определить эффективную размерность конструируемого пространства признаков, которая обеспечит воспроизведение матрицы удаленностей с заданной точностью. Получение дважды центрируемых матриц является обязательным этапом для многомерного шкалирования.

Использование метода главных компонент для сокращения размерности данных.

Основу многомерного шкалирования составляют разного рода предположения о структуре различий имеющихся объектов, каждый из которых характеризуется набором признаков. Сами по себе эти признаки могут иметь разную природу и структуру - могут быть сложными и простыми, одномерными и многомерными. Главным обоснованием многомерного шкалирования является предположение, что различие определяется расхождением по ограниченному числу простых признаков, которые явно или неявно могут быть использованы при учете этих самых различий.
Таким образом, формализация задачи многомерного шкалирования может быть сформулирована следующим образом - для заданной матрицы различий между объектами \begin{equation}\label{'md1'} D=\left( \begin{array}{cccc} D_{1,1} & D_{1,2}&\cdots & D_{1,n} \\ D_{2,1} & D_{2,2}&\cdots & D_{2,n} \\ \vdots & \vdots&\ddots & \vdots \\ D_{n,1} & D_{n,2}&\cdots & D_{n,n} \\ \end{array} \right) \end{equation} нужно построить систему точек \begin{equation}\label{'md2'} X=\left( \begin{array}{cccc} X_{1,1} & X_{1,2}&\cdots & X_{1,n} \\ X_{2,1} & X_{2,2}&\cdots & X_{2,n} \\ \vdots & \vdots&\ddots & \vdots \\ X_{n,1} & X_{n,2}&\cdots & X_{n,n} \\ \end{array} \right) \end{equation} так, чтобы матрица расстояний между ними \begin{equation}\label{'md3'} d=\left( \begin{array}{cccc} d_{1,1} & d_{1,2}&\cdots & d_{1,n} \\ d_{2,1} & d_{2,2}&\cdots & d_{2,n} \\ \vdots & \vdots&\ddots & \vdots \\ d_{n,1} & d_{n,2}&\cdots & d_{n,n} \\ \end{array} \right) \end{equation} в смысле некоторого критерия, была как можно ближе к матрице \(D\).
Постановка задачи более чем расплывчатая.
Существует два основных подхода к решению этой задачи - метрический и неметрический.
В первом случае строится модель субъективного расстояния, при этом исходные оценки различий (сходства) должны удовлетворять аксиомам метрического пространства. Неметрическое шкалирование использует не числовые характеристики сходства (различия), а их порядок. То есть порядок расстояний между точками должен соответствовать порядку оценок исходных данных.

Рассмотрим простой пример,

но, в отличие от предыдущих рассуждений, используем матричный подход.
По мотивам вступительной компании 2017 года дан список конкурсных предметов для поступления на 1-й курс бакалаврата (3-й и 4-й предметы по выбору, то есть при сравнении их можно менять местами).
1-й предмет2-й предмет3-й предмет4-й предмет
Філософія українська мова та літератураісторія Україниматематикаіноземна мова
Екологія українська мова та літературабіологіяхімія географія
Інженерія програмного забезпечення українська мова та літератураматематикафізикаіноземна мова
Менеджментукраїнська мова та літератураматематикаіноземна мовагеографія

Выпишем значения различия конкурсных предметов для данных специальностей

Філософія ЕкологіяІнженерія програмного забезпеченняМенеджмент
Філософія 0322
Екологія 303 2
Інженерія програмного забезпечення 2301
Менеджмент2210

Для получения дважды центрированной матрицы сделаем вспомогательные построения при условии \(n=4\).

\[ J=\textbf{I}-\frac{1}{n}\textbf{1}=\left( \begin{array}{cccc} 1 & 0& 0 & 0 \\ 0 & 1& 0 & 0 \\ 0 & 0& 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{array} \right)-0.25\times \left( \begin{array}{cccc} 1 & 1& 1 & 1 \\ 1 & 1& 1 & 1 \\ 1 & 1& 1 & 1 \\ 1 & 1 & 1 & 1 \\ \end{array} \right)= \left( \begin{array}{cccc} 0.75 & -0.25& -0.25 & -0.25 \\ -0.25 & 0.75& -0.25 & -0.25 \\ -0.25 & 0& 0.75 & -0.25 \\ -0.25 & -0.25 & -0.25 & 0.75 \\ \end{array} \right). \] Тогда, если \(P\)- матрица из квадратов элементов исходных данных \[ P=\left( \begin{array}{cccc} 0 & 9& 4 & 4 \\ 9 & 0& 9 & 4 \\ 4 & 9& 0 & 1 \\ 4 & 4 & 1 & 0 \\ \end{array} \right), \] то дважды центрированная матрица будет равна \[ B=-\frac{1}{2}JPJ=-\frac{1}{16}\left( \begin{array}{cccc} -37 & 25& 1 & 11 \\ 25 & -57& 31 & 1 \\ 1 & 31& -25 & -7 \\ 11 & 1 & -7 & -5 \\ \end{array} \right) \] Отсюда получаем собственные числа \[ \lambda_1=5.334077751, \lambda_2=2.420762505, \lambda_3=0, \lambda_4=-0.004840259, \] и собственные вектора \[ e_1=\left(\begin{array}{c}1.012021964 \\-1.985300519\\ 1.0\\ -0.026721445 \end{array}\right), e_2=\left(\begin{array}{c}-1.443957096 \\-0.2415932452\\ 1.0 \\0.685550343 \end{array}\right), e_3=\left(\begin{array}{c}1.0\\ 1.0\\ 1.0\\ 1.0 \end{array}\right), e_4=\left(\begin{array}{c}-0.06545617383\\ 0.4895024610\\ 1.0\\ -1.424046287 \end{array}\right). \] Выбирая пару наибольших собственных значений и соответствующие собственные вектора, получаем координаты точек для визуализации \[ E\times \Lambda^{1/2}=\left( \begin{array}{cc} 1.012021964 & -1.443957096\\ -1.985300519 & -0.2415932452 \\ 1.0 & 1.0 \\ -0.026721445 & 0.685550343 \\ \end{array} \right)\times \left( \begin{array}{cc} 2.309562242 & 0\\ 0 & 1.555879978 \\ \end{array} \right)= \left( \begin{array}{cc} 2.337327716 & -3.334908788\\ -4.585175118 & -0.5579746370 \\ 2.309562242& 1.555879978 \\ -0.06171484042 & 1.583321187 \\ \end{array} \right) \]
-6 -5 -2 0 2 4 6 -4 -3 -2 -1 0 1 2 3 4 Філософія Екологія Інженерія програмного забезпечення Менеджмент

В нелинейных методах размерность пространства задается изначально, и, с помощью градиентных методов оптимизируется функционал качества, описывающий меру искажения матрицы удаленностей.
Формализуем постановку задачи. Итак, пусть даны точки \(x_1 ,x_2 ,...,x_n \) в пространстве размерности \(k.\) Расстояние между точками \(x_i \) и \(x_j \) обозначим через \(\delta _{i,j} \). Найдем точки \(y_1 ,y_2 ,...,y_n \) в пространстве меньшей размерности (2 или 3) так, чтобы расстояние между ними, равное \(d_{i,j} \) было поставлено в соответствии с \(\delta _{i,j} \). В идеале хотелось бы получить прямое соответствие \(d_{i,j} = \delta _{i,j} \), но в нетривиальном случае при переходе в пространство меньшей размерности получить такое равенство невозможно. Но как-то эту задачу нужно решать, и, одним из возможных методов нахождения зависимости \(d_{i,j} \) от \(\delta _{i,j} \) является сведение к минимизации некоторой функции цели. В качестве такой задачи можно использовать минимизацию среднеквадратической ошибки \[J\left( y \right) = \frac{\sum\limits_{i \lt j} {\left( {d_{i,j} - \delta _{i,j} } \right)^2} }{\sum\limits_{i \lt j} {\delta _{i,j}^2 } }.\] Минимизация функции цели является нетривиальной задачей. Для ее решения можно использовать метод градиентного спуска \[ \nabla _{y_k } J\left( \delta \right) = \frac{2}{\sum\limits_{i \lt j} {\delta _{i,j}^2 } }\sum\limits_{j \ne k} {\left( {d_{k,j} - \delta _{k,j} } \right)\frac{\left( {y_k - y_j } \right)}{\sum_{i\lt j} {d_{k,j} } }}\to \min \] Координаты \(x_1 ,x_2 ,...,x_n \) выбираются так, чтобы получить наибольшую вариацию.
Заметим, что многомерное распределение данных, отображенное на плоскость, не решает всех вопросов визуализации исходных данных. Совершенно естественна идея отображать на двумерную карту не только сами точки данных, но и разнообразную информацию, сопутствующую исходным данным, например, положение точек в исходном пространстве, плотности различных подмножеств, другие непрерывно распределенные величины, заданные в исходном пространстве признаков. Все приводит к идее более эффективного использования всей первичной информации для отображения как количественной, так и качественной информации.
Наконец, после того, как данные нанесены на двумерную плоскость, хотелось бы, чтобы появилась возможность расположить на двумерной плоскости те данные, которые не участвовали в настройке отображения. Это позволило бы, с одной стороны, использовать полученную картину для построения различного рода экспертных систем и решать задачи распознавания образов, с другой - использовать ее для восстановления данных с пробелами. В результате приходим к идее использования для визуализации данных и извлечения информации некоторого вспомогательного объекта, называемого картой. Этот объект представляет ограниченное двумерное нелинейное многообразие, вложенное в многомерное пространство данных таким образом, чтобы служить моделью данных, то есть форма и расположение такого многообразия должна отражать основные особенности распределения множества точек данных.
Простой пример карты данных - плоскость первых двух главных компонент. Как уже отмечалось выше, среди всех двумерных плоскостей, вложенных в пространство, именно плоскость первых двух главных компонент служит оптимальным экраном, на котором можно отобразить основные закономерности, присущие данным. В качестве другой, еще более простой (но не оптимальной) карты можно использовать любую координатную плоскость любых двух выбранных координат.

Примеры использования SOM.

Всемирная карта бедности.

На страничке Helsinki University of Technology Laboratory of Computer and Information Science приведен пример использования SOM для построения некоего комплексного экономического показателя, по которому раскрашена обычная географическая карта. В результате, страны со сходной экономической ситуацией изображены на карте цветами, близкими по спектру.
Для построения этой карты рассмотрено 39 особенностей (индикаторов), описывающих различные факторы качества жизни, например, уровень системы здравоохранения, образовательные услуги, качество питания и пр. Государства, для которых имеющиеся значения индикаторов подобны, образовывают различные кластеры, которые на карте автоматически кодировались различными цветами. В результате этого процесса, каждой стране было автоматически назначено некоторое цветовое описание, характеризующее уровень бедности -- от желтого цвета благополучных стран до фиолетового.


Распределение цветов карты бедности мира.

На данной карте каждая страна окрашена в цвет согласно уровню бедности. В серый цвет окрашены страны, для которых (на время исследования) необходимая статистика была либо неполной, либо недоступной.


Карта бедности мира.

Пример использования сетей Кохонена - распознавание рукописного текста.

Полезная литература. Книги.

  1. Principal Manifolds for Data Visualisation and Dimension Reduction / A.Gorban, B.Kegl, D.Wunsch, A.Zinovyev .— Berlin – Heidelberg – New York: Springer, 2007 .— Режим доступу: http://pca.narod.ru/
  2. Rencher A.C. Methods of multivariate analysis / A.C.Rencher, W.F.Christensen; Third Edition .— Hoboken, New Jersey: John Wiley & Sons, Inc., 2012 .— 781 с.
  3. Rojas R. Neural Networks. A Systematic Introduction / R.Rojas .— Berlin: Springer-Verlag, 1996 .— 509 p.
  4. Гланц С. Медико-биологическая статистика. Пер. с англ. — М., Практика, 1998. — 459 с.
  5. Дейвисон М. Многомерное шкалирование. Методы наглядного представления данных. / М.Дейвисон .— М.: Финансы и статистика, 1988 .— 254 с.
  6. Дронов С.В. Многомерный статистический анализ.: Учебное пособие. Барнаул: Изд-во Алт. гос.ун-та, 2003, 213 с.
  7. Крамер Д. Математическая обработка данных в социальных науках:современные методы/ Дункан Крамер. — М .: Издательский центр «Академия», 2007. — 288 с.
  8. Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. – СПб.:Речь, 2004. – 392 с.
  9. Прикладная статистика. Классификация и снижение размерности. / С.А.Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д.Мешалкин .— М.: Финансы и статистика, 1989 .— 607 с.
  10. Толстова Ю.Н. Анализ социологических данных. Методология, дескриптивная статистика, изучение связей между номинальными признаками. – М.: Научный мир, 2000.- 352с.
  11. Толстова Ю.Н. Измерение в социологии: учебное пособие/ Ю.Н.Толстова.— М.:КДУ, 2007 .— 288 с.
  12. Толстова Ю.Н. Основы многомерного шкалирования:учебное пособие.— М.:КДУ.— 160 с.
  13. Шумейко А.А. Интеллектуальный анализ данных (Введение в Data Mining) / А.А.Шумейко, С.Л.Сотник .— Днепропетровск: Белая Е.А., 2012 .— 212 с.
  14. Эсбенсен К. Анализ многомерных данных / К.Эсбенсен .— Черноголовка: ИПХФ РАН, 2005 .— 160 с.

Полезная литература. Статьи.

  1. Agarwal P. Hand-Written Character Recognition Using Kohonen Network / P.Agarwal // InternatIonal Journal of Computer SCIenCe and teChnology .— 2011 .— Vol. 2, Issue 3 .— P.112-115.
  2. Kenkel N.C. Applying metric and nonmetric multidimensional scaling to ecological studies^ some new results / N.C.Kenkel, L.Orloci // Ecology .— 1986 .— №67 (4) .— P.919-928.
  3. Kensuke Okada Bayesian nonmetric successive categories multidimensional scaling / Kensuke Okada, Kensuke Okada // Behaviormetrika .— 2011 .— Vol.38,№1 .— P.17-31.
  4. Learning Algorithm of Kohonen Network With Selection Phase / M.Ettaouil, E.Abdelatifi, F.Belhabib, K.Moutaouakil // WSEAS TRANSACTIONS on COMPUTERS .— 2012 .— №11 .— P.387-396.
  5. Neidell L. The Use of Nonmetric Multidimensional Scaling in Marketing Analysis / L.Neidell // Journal of Marketing .— 1969 .— Vol. 33 .— P.37-43.
  6. Oh M. Bayesian Multidimensional Scaling and Choice of Dimension / M.Oh, A.Raftery // Journal of the American Statistical Assosiation .— 2001 .— №455, Vol.96 .— C.1031-1044.
  7. Pawliczeka P. Interactive data mining by using multidimensional scaling / P.Pawliczeka, W.Dzwinel // Procedia Computer Science .— 2013 .— №18 .— P.40-49.
  8. Yin H. On multidimensional scaling and the embedding of self-organising maps / H.Yin // Neural Networks .— 2008 .— №21 .— P.160-169.

Вопрос-ответ.

Задать вопрос: