Linear Discriminat Analysis


Плохое разделение классов точек.	Хорошее разделение классов точек.

Подробнее.

Определим матрицы оценивания разброса исходных данных (до проекции) \[ S_1=\sum\left\{\left. (x_i-\mu_1)(x_i-\mu_1)^T\right|x_i\in c_1\right\}, S_2=\sum\left\{\left. (x_i-\mu_2)(x_i-\mu_2)^T\right|x_i\in c_2\right\}. \] Теперь определим матрицу разброса между классами \(S_W=S_1+S_2.\)
Замечая, что \(\tilde{s}^2_1=\sum\left\{\left. (y_i-\tilde{\mu_1})^2\right|x_i\in c_1\right\}\) и учитывая, что \(y_i=\vec{\nu}^Tx_i\) и \(\tilde{\mu}_1=\vec{\nu}^T\mu_1\) \[ \tilde{s}^2_1=\sum\left\{\left. (y_i-\tilde{\mu_1})^2\right|x_i\in c_1\right\}= \sum\left\{\left. (\vec{\nu}^Tx_i-\vec{\nu}^T\mu_1)^2\right|x_i\in c_1\right\}= \sum\left\{\left. \left(\vec{\nu}^T(x_i-\mu_1)\right)^T\left(\vec{\nu}^T(x_i-\mu_1)\right)\right|x_i\in c_1\right\}=\] \[ \sum\left\{\left. \left((x_i-\mu_1)^T\vec{\nu}\right)^T\left((x_i-\mu_1)^T\vec{\nu}\right)\right|x_i\in c_1\right\}= \sum\left\{\left. \vec{\nu}^T\left((x_i-\mu_1)(x_i-\mu_1)^T\right)\vec{\nu}\right|x_i\in c_1\right\}=\vec{\nu}^TS_1\vec{\nu}. \] Аналогично, \(\tilde{s}^2_2=\vec{\nu}^TS_2\vec{\nu}\) и, соответственно, \[\tilde{s}^2_1+\tilde{s}^2_2=\vec{\nu}^TS_1\vec{\nu}+\vec{\nu}^TS_2\vec{\nu}=\vec{\nu}^TS_W\vec{\nu}. \] Определим матрицу разброса между классами \[S_B=(\mu_1-\mu_2)(\mu_1-\mu_2)^T.\] Кроме того, \[ |\tilde{\mu}_1-\tilde{\mu}_2|^2=\left(\vec{\nu}^T\mu_1-\vec{\nu}^T\mu_2\right)^2= \vec{\nu}^T(\mu_1-\mu_2)(\mu_1-\mu_2)^T\vec{\nu}=\vec{\nu}^TS_B\vec{\nu}. \] С учетом этих построений, функцию цели можно записать в виде \[J(\nu)=\frac{|\tilde{\mu}_1-\tilde{\mu}_2|}{\tilde{s}^2_1+\tilde{s}^2_2}= \frac{\vec{\nu}^TS_B\vec{\nu}}{\vec{\nu}^TS_W\vec{\nu}}. \] Далее просто найдем экстремум этой функции \[\frac{d}{d\nu}J(\nu)=\frac{\left(\frac{d}{d\nu}\vec{\nu}^TS_B\vec{\nu}\right)\vec{\nu}^TS_W\vec{\nu}- \left(\frac{d}{d\nu}\vec{\nu}^TS_W\vec{\nu}\right)\vec{\nu}^TS_B\vec{\nu} }{\left(\vec{\nu}^TS_W\vec{\nu}\right)^2}= \frac{\left(2S_B\vec{\nu}\right)\vec{\nu}^TS_W\vec{\nu}- \left(2S_W\vec{\nu}\right)\vec{\nu}^TS_B\vec{\nu} }{\left(\vec{\nu}^TS_W\vec{\nu}\right)^2}=0. \] То есть \[ \left(S_B\vec{\nu}\right)\vec{\nu}^TS_W\vec{\nu}- \left(S_W\vec{\nu}\right)\vec{\nu}^TS_B\vec{\nu}=0 \] или, что то же \[ \frac{\left(S_B\vec{\nu}\right)\vec{\nu}^TS_W\vec{\nu}- \left(S_W\vec{\nu}\right)\vec{\nu}^TS_B\vec{\nu} }{\vec{\nu}^TS_W\vec{\nu}}= \frac{\left(S_B\vec{\nu}\right)\vec{\nu}^TS_W\vec{\nu}}{\vec{\nu}^TS_W\vec{\nu}}- \frac{\left(S_W\vec{\nu}\right)\vec{\nu}^TS_B\vec{\nu}}{\vec{\nu}^TS_W\vec{\nu}}= S_B\vec{\nu}-\lambda S_W\vec{\nu}=0, \hbox{ где } \lambda=\frac{\vec{\nu}^TS_B\vec{\nu}}{\vec{\nu}^TS_W\vec{\nu}}. \] Таким образом задача поиска дискриминанта свелась к задаче поиска собственных векторов и собственных чисел, если \(S_W\) имеет полный ранг, то есть существует обратная матрица, то \[ S_B\vec{\nu}-\lambda S_W\vec{\nu}=0 \Leftrightarrow S_W^{-1}S_B\vec{\nu}=\lambda \vec{\nu}. \] Для любого вектора \(x\) рассмотрим \(S_Bx\) \[ S_Bx=(\mu_1-\mu_2)\left((\mu_1-\mu_2)^Tx\right)=\alpha(\mu_1-\mu_2), \hbox{ где } \alpha=(\mu_1-\mu_2)^Tx. \] Получим решение задачи на собственные числа и собственные значения \[ S_W^{-1}S_B\underbrace{\left(S_W^{-1}(\mu_1-\mu_2)\right)}_{\vec{\nu}}=S^{-1}_W\left(\alpha(\mu_1-\mu_2)\right)= \alpha\underbrace{\left(S_W^{-1}(\mu_1-\mu_2)\right)}_{\vec{\nu}}, \hbox{ где } \vec{\nu}=S^{-1}_W(\mu_1-\mu_2). \]

S₁=

10	8.0
8.0	7.2

S₂=

17.7	16.0
16.0	16.0

S_W=S₁+S₂=

27.3	14.0
24.0	23.2

\(S^{-1}_W=\)

0.39	-0.41
-0.41	0.47

\(\vec{\nu}=S^{-1}_W(\mu_1-\mu_2)=\)

-0.79

0.89

\(Y_1=\vec{\nu}^Tc^{T}_1=\)

-0.67

0.73

1	2	3	4	5
2	3	3	5	5

0.81

...

0.4

\(Y_2=\vec{\nu}^Tc^{T}_2=\)

-0.67

0.73

1	2	3	4	5	6
0	1	1	2	3	5

-0.65

...

-0.25

Имя	Посещение	Активность	На занятиях спит	На занятиях жует жвачку	Класс
Петя	1 (true)	1(true)	-1(false)	-1(false)	A
Вова	1	1	1	1	F
Ваня	-1	-1	-1	1	F
Дина	1	-1	-1	1	A

Имя	Доп.	Посещение	Активность	На занятиях спит	На занятиях жует жвачку	Класс
Петя	1	1 (true)	1(true)	-1(false)	-1(false)	A
Вова	-1	-1	-1	-1	-1	F
Ваня	-1	1	1	1	-1	F
Дина	1	1	-1	-1	1	A

Имя	\(a^Ty\)	Неверно классифицированный?
Петя	0.251+0.251+0.251+0.25(-1)+0.25*(-1)>0	false
Вова	0.25(-1)+0.25(-1)+0.25(-1)+0.25(-1)+ 0.25*(-1)<0	true

Имя	\(a^Ty\)	Неверно классифицированный?
Ваня	-0.75(-1) -0.751 -0.751 -0.751 -0.75*(-1)<0	true

Имя	\(a^Ty\)	Неверно классифицированный?
Дина	-1.751 +0.251 +0.25(-1) +0.25(-1) -0.75*1<0	true

Имя	\(a^Ty\)	Неверно классифицированный?
Петя	-0.751+1.251-0.751-0.75(-1)-0.75*(-1)>0	false
Вова	-0.75(-1)+1.25(-1)-0.75(-1)-0.75(-1)-0.75*(-1)>0	false
Ваня	-0.75(-1)+1.251-0.751-0.751-0.75*(-1)>0	false
Дина	-0.751+1.251-0.75(-1)-0.75(-1)-0.75*1>0	false

Примеры квадратичного дискриминантного анализа.

Пример. Пусть даны три класса, данные которых описываются нормальным распределением с параметрами \[ \mu _1 = \left( {{\begin{array}{*{20}c} 0 \hfill \\ 0 \hfill \\ \end{array} }} \right), \quad \mu _2 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ 2 \hfill \\ \end{array} }} \right), \quad \mu _3 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ { - 1} \hfill \\ \end{array} }} \right)\mbox{ и } \quad \Sigma _i = \left( {{\begin{array}{*{20}c} 4 \hfill & 0 \hfill \\ 0 \hfill & 4 \hfill \\ \end{array} }} \right)\left( {i = 1,2,3} \right). \] Кроме того, пусть даны априорные вероятности выпадения классов \[ P\left( {c_1 } \right) = \frac{5}{12},P\left( {c_2 } \right) = \frac{1}{4},P\left( {c_3 } \right) = \frac{1}{3}. \]

В соответствии с (\ref{eq5.7}), выпишем дискриминантные функции \[g_1 (x) = \frac{\left( {0,0} \right)}{4}\left( {{\begin{array}{*{20}c} {x_1 } \hfill \\ {x_2 } \hfill \\ \end{array} }} \right) + \left( {\ln \frac{5}{12} - \frac{0}{8}} \right) = - 0.8754683,\] \[g_2 (x) = \frac{\left( {2,2} \right)}{4}\left( {{\begin{array}{*{20}c} {x_1 } \hfill \\ {x_2 } \hfill \\ \end{array} }} \right) + \left( {\ln \frac{1}{4} - \frac{8}{8}} \right) =- 2.3862943 + \frac{1}{2}\left( {x_1 + x_2 } \right),\] \[ g_3 (x) = \frac{\left( {2, - 1} \right)}{4}\left( {{\begin{array}{*{20}c} {x_1 } \hfill \\ {x_2 } \hfill \\ \end{array} }} \right) + \left( {\ln \frac{1}{3} - \frac{5}{8}} \right) =- 1.7261229 + \frac{1}{4}\left( {2x_1 - x_2 } \right). \] Тогда функция, разделяющая классы \(c_{1}\) и \(c_{2}\) будет равна \[ g_1 (x) = g_2 (x) \Rightarrow - 0.6931471806 = - \] \[2.098612289 + \frac{1}{2}\left( {x_1 + x_2 } \right) \Rightarrow x_1 + x_2 - 3.0217 = 0. \] Функция, разделяющая классы \(c_{1}\) и \(c_{3}\) будет иметь вид \[ g_1 (x) = g_3 (x) \Rightarrow - 0.6931471806 = \] \[- 2.416759469 + \frac{1}{4}\left( {2x_1 - x_2 } \right) \Rightarrow 2x_1 - x_2 - 3.39257 = 0. \] И, наконец, \[ g_2 (x) = g_3 (x) \Rightarrow - 2.098612289 + \frac{1}{2}\left( {x_1 + x_2 } \right) =\] \[ -2.416759469 + \frac{1}{4}\left( {2x_1 - x_2 } \right) \Rightarrow x_2 = 0.883576. \] Заметим, что \(g_{1}(x)=g_{2}(x)=g_{3}(x)\) имеет решение \(x_{1}=2,138075, x_{2}=0.883576\).

Пусть \(\Sigma _i = \Sigma \quad (i = 1,...,k)\), тогда величина \(\frac{1}{2}\ln \left| {\Sigma _i^{ - 1} } \right|\) не зависит от класса, и, тогда получаем следующую дискриминантную функцию \[ g_i \left( x \right) = - \frac{1}{2\sigma ^2}\left( {x - \mu _i } \right)^T\left( {x - \mu _i } \right) + \ln P(c_i ) = \] \[- \frac{1}{2\sigma^2}\left( {x^Tx - \mu _i^T x - x^T\mu _i + \mu _i^T \mu _i } \right) + \ln P(c_i ), \] а так как \(x^T\Sigma ^{ - 1}x\) не зависит от классов, то получаем \[ g_i \left( x \right) = - \frac{1}{2}\left( { - 2\mu _i^T \Sigma ^{ - 1}x +\mu _i^T \Sigma ^{ - 1}\mu _i } \right) + \ln P(c_i ) = a_i x + b_i , \] где \[ a_i = \mu _i^T \Sigma ^{ - 1}\mbox{ и } \quad b_i = \ln P(c_i ) - \frac{\mu _i^T \Sigma ^{ - 1}\mu _i }{2}, \] Следовательно, и в этом случае дискриминантная функция является линейной.

Пример. Пусть даны три класса, данные которых описываются нормальным распределением с параметрами \[ \mu _1 = \left( {{\begin{array}{*{20}c} 0 \hfill \\ 0 \hfill \\ \end{array} }} \right), \quad \mu _2 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ 2 \hfill \\ \end{array} }} \right), \quad \mu _3 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ { - 1} \hfill \\ \end{array} }} \right)\mbox{ и } \quad \Sigma _i = \left( {{\begin{array}{*{20}c} 2 \hfill & { - 1} \hfill \\ { - 1} \hfill & 2 \hfill \\ \end{array} }} \right)\left( {i = 1,2,3} \right), \] и априорные вероятности выпадения классов \[ P\left( {c_1 } \right) = \frac{5}{12},P\left( {c_2 } \right) = \frac{1}{4},P\left( {c_3 } \right) = \frac{1}{3}. \]

В соответствии с (\ref{eq5.8}), выпишем дискриминантные функции \[ g_1 (x) = - 0.8754683, \] \[ g_2 (x) = - 5.3862943 + 2\left( x_1 + x_2 \right), \] \[ g_3 (x) = x_1 - 2.09861229. \] Тогда функция, разделяющая классы \(c_{1}\) и \(c_{2}\) будет равна \[ g_1 (x) = g_2 (x) \Rightarrow x_{1} + x_2 - 2.2554128 =0. \] Функция, разделяющая классы \(c_{1}\) и \(c_{3}\) будет иметь вид \[ g_1 (x) = g_3 (x) \Rightarrow x_1 - 1.2231435 = 0. \] И, наконец, \[ g_2 (x) = g_3 (x) \Rightarrow x_1 + 2x_2 = 3.28768. \] При этом \(g_{1}(x)=g_{2}(x)=g_{3}(x)\) имеет решение \(x_{1}=1,22314255, x_{2}=1.03226926\).

Пример. Пусть даны три класса, данные которых описываются нормальным распределением с параметрами \[ \mu _1 = \left( {{\begin{array}{*{20}c} 0 \hfill \\ 0 \hfill \\ \end{array} }} \right), \mu _2 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ 2 \hfill \\ \end{array} }} \right), \mu _3 = \left( {{\begin{array}{*{20}c} 2 \hfill \\ { - 1} \hfill \\ \end{array} }} \right) \] и \[ \Sigma _1 = \left( {{\begin{array}{*{20}c} 2 \hfill & { - 1} \hfill \\ { - 1} \hfill & 1 \hfill \\ \end{array} }} \right),\Sigma _2 = \left( {{\begin{array}{*{20}c} 2 \hfill & 0 \hfill \\ 0 \hfill & 2 \hfill \\ \end{array} }} \right),\Sigma _3 = \left( {{\begin{array}{*{20}c} 2 \hfill & 1 \hfill \\ 1 \hfill & 2 \hfill \\ \end{array} }} \right), \] и априорные вероятности выпадения классов \[ P\left( {c_1 } \right) = \frac{5}{12},P\left( {c_2 } \right) = \frac{1}{4},P\left( {c_3 } \right) = \frac{1}{3}. \]

В соответствии с (\ref{eq5.8}), выпишем дискриминантные функции \[ g_1 (x) = - \frac{1}{2}x_1^2 - x_1 x_2 - x_2^2 - 0.875468, \] \[ g_2 (x) = - \frac{1}{4}x_1^2 - \frac{1}{4}x_2^2 + x_1 + x_2 - 2.693147, \] \[ g_3 (x) = - \frac{1}{3}x_1^2 + \frac{1}{3}x_1 x_2 - \frac{1}{3}x_2^2 + \frac{8}{5}x_1 - \frac{4}{3}x_2 - 2.882639. \] Тогда функция, разделяющая классы \(с_{1}\) и \(с_{2}\) будет равна \[ g_1 (x) = g_2 (x) \Rightarrow - \frac{1}{4}x_1^2 - x_1 x_2 - \frac{3}{4}x_2^2 - x_1 - x_2 + 1.81767 = 0. \] Функция, разделяющая классы \(c_{1}\) и \(c_{3}\) будет иметь вид \[ g_1 (x) = g_3 (x) \Rightarrow - \frac{1}{6}x_1^2 - \frac{4}{3}x_1 x_2 - \frac{2}{3}x_2^2 - \frac{5}{3}x_1 + \frac{4}{3}x_2 + 2.00717 = 0. \] И, наконец, \[ g_2 (x) = g_3 (x) \Rightarrow \frac{1}{12}x_1^2 + \frac{1}{12}x_2^2 - \frac{1}{3}x_1 x_2 + \frac{7}{3}x_2 - \frac{1}{6}x_1 + 0.18949 =0. \]

Использование ЛДА для построения векторного классификатора текстов.

Задачи для самостоятельной работы.

Задача 1.

С чего выросла вся эта тематика - ирисы Фишера. Построить классификатор для трех видов ирисов - Iris setosa, Iris virginica и Iris versicolor.

Задача 2.

Даны антропометрические данные

Пол	Рост (см.)	Вес (кг.)	Длина ноги (см.)	Длина руки (см.)	Ширина плеч (см.)	Диаметр головы (см.)	Расстояние между коленом и лодыжкой (см.)

Построить дискриминантную функцию, разделяющую данные по полу и проверить корректность полученной классификации на своих личных значениях.

Задача 3.

По результатам голосования на первом туре президентских выборов 2019 года в Украине (по данным Центральной избирательной комиссии) считая, что территориально сторонники каждой политической силы имеют нормальное распределение, построить дискриминантную функцию, показывающую где проживают большая часть сторонников блока Петра Порошенко (15.95%), партии "Батьківщина" (13.40%), движения "Слуга народа" (30.24%) и регионалов (Бойко Ю. (11.67%) и Вилкул А. (4.15%)).
Замечание: Всех избирателей области ассоциируем с обласным центром.

Регіон	% голосів виборців, поданих за кандидата					Кількість виборців які взяли участь у голосуванні	Північна широта обласного центру	Східна довгота обласного центру
Регіон	Зеленський Володимир Олександрович	Порошенко Петро Олексійович	Тимошенко Юлія Володимирівна	Бойко Юрій Анатолійович	Вілкул Олександр Юрійович	Кількість виборців які взяли участь у голосуванні	Північна широта обласного центру	Східна довгота обласного центру
Вінницька	23.42	22.37	17.61	4.84	2.27	799770	49.2333333	28.4833333
Волинська	21.63	18.98	19.84	3.63	1.10	520163	50.75	25.3358333
Дніпропетровська	45.34	8.32	8.52	12.36	10.93	1647398	48.45	34.9833333
Донецька	24.74	12.64	3.61	36.87	11.99	848542	48.0027778	37.8052778
Житомирська	27.83	15.94	17.42	7.20	1.72	618835	50.259749	28.676248
Закарпатська	38.35	11.41	15.70	7.48	2.02	443329	48.6166667	22.3
Запорізька	39.75	8.76	8.24	18.79	9.40	872526	47.853748	35.157139
Івано-Франківська	16.07	21.30	22.51	1.03	0.31	650861	48.9166667	24.7166667
Київська	30.86	18.56	16.86	5.20	1.32	983279	50.45	30.52333
Кіровоградська	34.52	11.79	18.53	8.74	2.02	453544	48.508389	32.264801
Луганська	25.05	6.58	4.89	43.96	9.16	302797	48.573269	39.355659
Львівська	11.96	35.32	14.85	1.34	0.32	1324932	49.85	24.0166667
м.Київ	27.09	25.59	12.88	6.27	2.20	1462690	50.45	30.52333
Миколаївська	40.74	9.69	8.84	17.33	5.94	525684	46.9666667	32.0
Одеська	41.26	9.08	8.02	21.92	6.09	1026868	46.4666667	30.7333333
Полтавська	35.62	10.61	15.86	9.48	2.09	735908	49.59269	34.551159
Рівненська	24.01	22.32	15.98	4.41	0.97	552041	50.6166667	26.25
Сумська	32.66	10.66	16.42	11.19	2.29	557247	50.910561	34.80566
Тернопільська	14.67	24.36	18.87	1.55	0.37	536680	49.551361	25.603979
Харківська	36.41	8.52	7.35	26.58	7.47	1324847	49.98967	36.208309
Херсонська	37.58	11.51	10.33	15.73	5.29	469391	46.653368	32.629424
Хмельницька	24.89	16.63	17.59	5.07	1.08	650602	49.4166667	27.0
Черкаська	30.06	12.20	16.71	5.50	1.50	615327	49.4333333	32.0666667
Чернівецька	31.07	14.09	19.67	8.99	1.13	385533	48.3	25.9333333
Чернігівська	26.28	12.77	19.43	7.33	2.47	530039	51.503653	31.293167