Least squares

"Хотя это может показаться парадоксальным, вся наука подчинена идее аппроксимации" - эти слова, принадлежащие Бертрану Расселу, отнюдь не кажутся странными, так как задачи, связанные с необходимостью заменить один объект другим, близким в том или ином смысле к первому, но более простым для изучения, возникают очень часто.
В данном разделе мы рассмотрим один из наиболее универсальных инструментов описания данных - метод наименьших квадратов. МНК оказал громадное влияние на методы описания, восстановления и прогнозирования данных самой различной природы. Здесь мы коснемся чуть-чуть нескольких сфер использования МНК. Так, самую малость.

Метод наименьших квадратов (МНК) был придуман в самом начале XIX века почти одновременно тремя учеными, два из которых – это известные математики А. М. Лежандр (1752–1833) и К. Ф. Гаусс (1777–1855), а третим был мало известный математик из Америки, Р.А. Эдрейн (1775–1843), который опубликовал свой вывод нормального закона распределения вероятностей ошибок измерений и применил его «к установлению принципа наименьших квадратов».

А теперь, по сути.

Пусть дана система точек

tit0t1...tN
xix0x1...xN

где число точек N велико и данные получены с ошибкой. Такая ситуация является традиционной при обработке экспериментальных данных. В этом случае использование интерполяционных методов нецелесообразно, в частности, классической иллюстрацией этого служит пример Рунге для интерполяционных полиномов. Кроме того, возможна ситуация, когда известна априорная информация об исследуемом процессе, тогда вид приближающего аппарата определяется технологическими условиями или природой явления. Выбор коэффициентов приближающей функции обусловлен, прежде всего адекватностью используемой модели, то есть, ошибка описания исходных данных должна быть достаточно мала. Понятно, что выбор критерия близости является принципиальным.

Поэтому, начале немного об основных идеях, лежащих в основе различных оценок.

Рассматриваемая задача состоит в следующем - нужно выбрать параметры θ модели, которые объясняют исходные данные как можно лучше.
Чтобы формализовать это, нужно подумать о следующих проблемах: Данная постановка позволяет реализовать переход от наблюдаемого поведения данных к исследованию параметров, которые непосредственно не наблюдаются, но отражают суть процесса. И сделать это можно сделать по-разному. Вот некоторые варианты: Выбор инструмента решения каждый раз зависит от решаемой задачи. Универсальных методов нет, но, тем не менее, есть наиболее часто используемый метод, и это метод наименьших квадратов. И чем это обусловлено? Прежде всего тем, что ключевым моментом всех перечисленных подходов является поиск минимального значения неких параметров. Как помним из курса математического анализа, эта задача разбивается на две - нахождение необходимого и достаточного условий. Если необходимое условие находится достаточно просто - ищем производные функции цели по всем параметрам, приравниваем их нулю, получаем систему уравнений, и - "вуаля!" Значения параметров, которые, возможно, реализуют нашу задачу найдены! То с достаточными условиями все намного, намного сложнее. Во многих случаях нахождение достаточных условий экстремума, вообще, весьма проблематичны. С другой стороны, если функция цели выпукла, то необходимые условия экстремума совпадают с достаточными. Примером выпуклой функции цели является параболоид, то есть, линейная функция, возведенная в квадрат.

Таким образом, если мы толком ничего не знаем о сути задачи - берем ошибку, возводим в квадрат и получаем выпуклую функцию цели. Может это и не лучший метод, но, наверняка позволяющий получить какое-то приближение искомого решения.

Перейдем к изложению метода наименьших квадратов.
Поставим в соответствие исходным данным, заданным в виде таблицы, функцию вида f({ai}ni=0,t)=ni=0aiφi(t)=a0φ0(t)+a1φ1(t)+...+anφn(t),
где φi(t),i=0,,n- базисные функции, а ai неизвестные коэффициенты, подлежащие определению. В частности, если в качестве базисных функций использовать степенные маномы φi(t)=ti, задача сводится к поиску полинома f({ai}ni=0,t)=ni=0aiti=a0+a1t+...+antn
степени n, приближающего исходную таблицу.
Для определения коэффициентов ai будем искать функцию f({ai}ni=0,t), отклонение значений которой от заданных таблицей значений xi минимально в некотором средне интегральном смысле.


Иллюстрация МНК.

В частности, в дискретном методе наименьших квадратов строится функционал цели S(a0,a1,...,an)=Ni=0(f(a0,a1,...,an,ti)xi)2ρ2i=
=Ni=0(a0φ0(ti)+a1φ1(ti)+...+anφn(ti)xi)2ρ2i,
где ρi - некоторые неотрицательные числа (весовые коэффициенты). Если все значения равноправны, то весовые коэффициенты берутся равными единице.
Геометрически функционал (2) представляет собой сумму квадратов отклонений с весом ρi экспериментальных данных xi от значений аппроксимирующей функции f(a0,a1,...,an,t) в точках ti(i=0,,N).
Необходимым (а в данном случае, в силу выпуклости функционала цели, и достаточным) условием минимума функции многих переменных S(a0,a1,...,an)mina0,a1,,an
является равенство нулю ее частных производных первого порядка по независимым переменным. {Sa0=2Ni=0(f(a0,a1,...,an,ti)xi)φ0(ti)ρ2i=0,Sa1=2Ni=0(f(a0,a1,...,an,ti)xi)φ1(ti)ρ2i=0,........................................................San=2Ni=0(f(a0,a1,...,an,ti)xi)φn(ti)ρ2i=0.
Полученная система представляет собой систему линейных алгебраических уравнений порядка n+1 относительно неизвестных a0,a1,...,an. Система разрешима при условии nN. Ее матрица является симметрической и положительно определенной. Решения a0,a1,...,an доставляют минимум функционалу (2).
Решение данной системы может быть осуществлено любым из известных методов (например, методом Гаусса, Крамера и др.). Подставляя найденные в результате решения системы (3) значения a0,a1,...,an в (1), получаем функцию f(t), наилучшим образом приближающую исходные данные в среднеквадратическом смысле. Качество такого приближения может быть оценено величиной среднеквадратичного отклонения σ=1N+1Ni=0(xif(ti))2ρ2i.
Достаточно часто естественным условием является требование описания исходных данных прямой или параболой. В этом случае говорят, что используется линейная или квадратичная регрессия.
Рассмотрим случай описания априорных данных прямой, то есть используем метод линейной регрессии. Опишем исходные данные (ti,xi),i=0,1,...,N прямой x=at+b. В этом случае функция цели (2) примет вид S(a,b)=Ni=0(ati+bxi)2mina,b.
Необходимое (и, в данном случае, достаточное) условие экстремума имеет вид {aS(a,b)=2Ni=0ti(ati+bxi)=0,bS(a,b)=2Ni=0(ati+bxi)=0,
или, что то же, {aNi=0t2i+bNi=0ti=Ni=0xiti,aNi=0ti+b(N+1)=Ni=0xi.
Отсюда, применяя метод Крамера решения систем линейных уравнений, сразу получаем коэффициенты прямой (линейной регрессии) a=(N+1)Ni=0xitiNi=0tiNi=0xi(N+1)Ni=0t2i(Ni=0ti)2,b=Ni=0t2iNi=0xiNi=0tiNi=0xiti(N+1)Ni=0t2i(Ni=0ti)2.

Оценка точности уравнения регрессии.

Для оценки точности уравнения регрессии используется дисперсионный анализ. Представим общую сумму квадратов отклонений x от среднего значения ˉx=1N+1Ni=0xi: Q=Ni=0(xiˉx)2,
в виде суммы, одна из которых определена влиянием фактора t, другая - неучтенными факторами Q=Ni=0(xiˉx)2=Ni=0(˜xiˉx)2+Ni=0(xi˜xi)2,
где ˜xi=ati+b.
Здесь QR=Ni=0(˜xiˉx)2- факторная сумма, которую можно объяснить используемой регрессией (влиянием фактора t) и Qe=Ni=0(xi˜xi)2=Ni=0e2i - остаточная часть (объяснить нельзя, так как является влиянием неучтенных факторов).


Иллюстрация ошибки линейной регрессии.

Если фактор t не оказывает влияния на переменную x, то QR=0 и Q=Qe. Если QR>Qe, то влияние t существенно. Поэтому для повышения эффективности оценки качества данного уравнения регрессии используется коэффициент детерминации R2 R2=QRQ=Ni=0(˜xiˉx)2Ni=0(xiˉx)2=1QeQ=1Ni=0e2iNi=0(xiˉx)2.
Ясно, что R2[0,1] и чем ближе R2 к единице, тем выше качество полученной регрессионной модели.
Другим критерием оценки качества полученной регрессии является средняя относительная ошибка аппроксимации: ˉε=1N+1Ni=0|xi˜xixi|×100%=1N+1Ni=0|eixi|×100%.
Если ˉε<10%, то полученная модель высокого качества.

Оценка значимости уравнения регрессии в целом.

Из различных уравнений регрессии наилучшим в смысле МНК считают то, которое обеспечивает минимум дисперсии фактических (полученных экспериментально) значений отклика относительно линии регрессии. Эту дисперсию называют остаточной или дисперсией относительно регрессии: S2e=1N+1kNi=0(xi˜xi)2,
где k- число коэффициентов регрессии в уравнении (в нашем случае k=2).
Для оценки точности аппроксимации исследуемой зависимости выбранным уравнением регрессии сравнивают дисперсию относительно линии регрессии ( S2e ) с оценкой дисперсии значений xi относительно выборочного среднего фактических значений отклика ˉx: S2E=1k1Ni=0(xiˉx)2.
Величина S2E характеризует рассеяние xi, обусловленное зависимостью отклика от факторов, и поэтому называется объясненной дисперсией. Остаточная дисперсия S2e характеризует рассеяние xi , вызванное случайными воздействиями (возмущениями). Очевидно, что связь между откликом и факторами в виде данного уравнения регрессии существует, если объясненная дисперсия существенно больше остаточной.
Чтобы выяснить, можно ли считать отличие рассматриваемых дисперсий существенным, выдвигают нулевую гипотезу об их равенстве H0:S2E=S2e и проверяют ее с использованием значений распределения Фишера: F=S2ES2e.
Гипотеза считается справедливой, если рассчитанное число Фишера не превышает табличного значения F[α,ν1,ν2] для заданного уровня значимости α. При выборе табличного значения важно помнить, что в данном случае ν1=νE=k1 и ν2=νe=N+1k.
Справедливость гипотезы о равенстве остаточной и объясненной дисперсий означает, что выбранное уравнение регрессии нельзя принимать в качестве модели связи между откликом и фактором.
Если же F>F[α,k1,N+1k], то объясненная дисперсия существенно больше остаточной. А это означает, что между откликом и факторами существует взаимосвязь, которую с вероятностью α допустимо аппроксимировать рассматриваемым уравнением регрессии.
Из нескольких допустимых аппроксимаций наиболее точной,очевидно, будет та, для которой значение S2e является наименьшим. Отсюда следует, что для наиболее точной модели различие расчетного и табличного чисел Фишера будет максимальным.
На практике для вычисления статистики F используют формулу, связывающую ее с коэффициентом детерминации F=R21R2(N+1k).

Множественная линейная регрессия.

Рассмотрим простую задачу построения линейной регрессии для случая многих переменных, то есть, когда на модель оказывает влияние не один, а несколько факторов. В этом случае для наблюдений (ti,1,ti,2,...,ti,n,xi),i=0,...,N
строим линейную модель множественной регрессии: f({ai}ni=0,t)=a0+ni=1aiti=a0+a1t1+...+antn,
и задача поиска методом наименьших квадратов параметров данной модели будет иметь вид S=TAX2=Ni=0(nj=1ajti,j+a0xi)2minaj,
где T=(1t0,1t0,2...t0,n1t1,1t1,2...t1,n1t2,1t2,2...t2,n1tN,1tN,2...tN,n),A=(a0a1a2an),X=(x0x1x2xN).
Для решения этой задачи найдем производные целевой функции Sak=2Ni=0ti,k(nj=1ajti,j+a0xi)=2(TT(TAX))k
и вычислим градиент S=(Sa0,Sa1,...,San)=2(TT(TAX)).
Нахождения оптимальных параметров методом МНК сводится к решению матричного уравнения S=2(TT(TAX))=0.
Отсюда получаем (TTT)A=TTX
и искомое решение равно A=(TTT)1TTX.
В принципе, задача решена, проблема только в вычислительной сложности полученного решения. Для того, чтобы получить более простой (в вычислительном смысле) алгоритм, можно использовать QR-факторизацию, то есть, представление T=QR, где первая из матриц ортогональная QTQ=I, а вторая треугольная, тогда A=(TTT)1TTX=((QR)T(QR))1(QR)TX=(RTQTQR)1RTQTX=R1RTRTQTX=R1QTX.
Ну и несколько слов о том, как получить эту факторизацию. Для этого можно использовать ортогонализацию (процесс) Грама-Шмидта.
Пусть дана матрица B=[b1|b2|...|bn].
Тогда u1=b1,e1=u1u1,
u2=b2(b2,e1)e1,e2=u2u2,
uk+1=bk+1(bk+1,e1)e1...(bk+1,ek)ek,ek+1=uk+1uk+1.
Тогда результат QR-факторизации можно записать в виде B=[b1|b2|...|bn]=[e1|e2|...|en][b1e1b2e1...bne10b2e2...bne200...bnen]
Пример. B=[b1|b2|bn]=[110101011],
то есть b1=(1,1,0)T,b2=(1,0,1)T,b3=(0,1,1)T.
Тогда u1=b1=(1,1,0),e1=u1u1=12(1,1,0)=(12,12,0),
u2=b2(b2,e1)e1=(1,0,1)12(12,12,0)=(12,12,1),e2=u2u2=23(12,12,1)=(16,16,26),
u3=b3(b3,e1)e1(b3,e2)e2=(0,1,1)12(12,12,0)16(16,16,26)=(13,13,13),e3=u3u3=(13,13,13).
Остается только выписать ответ Q=[e1|e2|en]=[12161312161302613],R=[b1e1b2e1b3e10b2e2b3e200b3e3]=[221212036160023].

Вероятностное обоснование метода наименьших квадратов.

Как уже говорилось ранее, если при построении аппроксимации нет возможности точно и четко выбрать критерий качества, то следует использовать метод наименьших квадратов. Рассмотрим еще одно обоснование использования МНК, опирающееся на вероятностный подход.
Как и ранее, пусть X=TA+E
где T=(1t0,1t0,2...t0,n1t1,1t1,2...t1,n1t2,1t2,2...t2,n1tN,1tN,2...tN,n)=(T0T1T2TN),A=(a0a1a2an),X=(x0x1x2xN),E=(ε0ε1ε2εN).
Здесь εi - ошибка восстановления iго изменения. Значение εi отражает влияние неучтенных факторов, среди которых случайный шум. Предположим далее, что εi распределены в соответствии с распределением Гаусса (так называемое нормальное распределение) со средним значением равным нулю и дисперсией σ2, тогда плотность распределения ошибки будет p(εi)=1σ2πexp(ε2i2σ2).
и, соответственно, p(xi|Ti;A)=1σ2πexp((xiTiA)22σ2).
Здесь p(xi|Ti;A) функция вероятности случайной величины T при наблюдении Ti, параметризованная по A. Заметим, что так как A не является случайной величиной, то правильнее распределение xi записать так xi|Ti:AN(TiA,σ2).
Если использование вероятности позволяет предсказывать неизвестные результаты, основанные на известных параметрах, то функция правдоподобия позволяет оценивать неизвестные параметры, основанные на известных результатах. Выпишем функцию правдоподобия L(A)=N(A;T,X)=p(X|T;A)
и полагая, что εi независимы, получаем L(A)=Ni=0p(xi|Ti;A)=Ni=01σ2πexp((xiTiA)22σ2).
Теперь, учитывая вероятностную модель, связывающую xi и Ti, требуется так выбрать параметры A, чтобы результат, полученный при использовании аппроксимационной модели, был наиболее близким к результатам наблюдений, то есть сделать результаты аппроксимации максимально возможными.
Принцип максимального правдоподобия говорит, что следует выбрать A так, чтобы максимизировать L(A). Вместо максимизации L(A) можно максимизировать любую строго возрастающую функцию от L(A), в частности, все будет проще, если использует натуральный логарифм функции правдоподобия (A)=lnL(A)=lnNi=0p(xi|Ti;A)=lnNi=01σ2πexp((xiTiA)22σ2)=Ni=0ln1σ2πexp((xiTiA)22σ2)=(N+1)ln1σ2π1σ212Ni=0(xiTiA)2.
Таким образом, задача максимизации (A) сводится к минимизации Ni=0(xiTiA)2,
то есть, приходим к методу наименьших квадратов.
Приведенная методология определения аппроксимирующих функций методом наименьших квадратов годится лишь для функций, у которых неопределенные коэффициенты заданы линейно. Если же это условие не выполняется, то прямое использование метода наименьших квадратов невозможно.
Как же быть в этом случае? Возможно ли вообще использовать в таких случаях метод наименьших квадратов? Да. Возможно. Но тогда нужно проводить некоторые дополнительные построения, линеаризующие (по коэффициентам) приближающую функцию.
Проиллюстрируем это на нескольких примерах.
  1. Пусть приближающая функция имеет вид x=1αt+β.
    Тогда для xiошибка будет равна δi=xi1αti+β.
    Прямое использование метода наименьших квадратов приводит к минимизации величины S(α,β)=ni=1δ2i=ni=1(xi1αti+β)2.
    Взяв частные производные по αи β, и приравняв их нулю, получим систему из двух нелинейных уравнений, {S(α,β)α=2ni=1(xi1αti+β)ti(αti+β)2=0,S(α,β)α=2ni=1(xi1αti+β)1(αti+β)2=0,
    которая не подлежит точному решению. В связи с этим, проведем некоторые построения.
    Рассмотрим величины Δi=xi(αti+β)1,(i=1,2,...,n).
    Установим зависимость между Δi и δi. Из (6) получаем αti+β=1xiδi.
    Тогда Δi=xixiδi1=δixiδi,(i=1,2,...,n),
    и, следовательно, при малых Δi δi=xiΔiΔi+1xiΔi.
    Тогда задача (7) сводится к задаче определения коэффициентов α и βтак, чтобы величина ni=1(xiΔi)2=ni=1(1αtixiβxi)2x2i.
    была минимальной.
    Таким образом, мы пришли к задаче (2) при условии, что приближаемая функция тождественно равна единице и φ0(t)=tx(t),φ1(t)=x(t) с весом ρi=xi.
    Погрешность приближения имеет вид σ=1nni=1(xi1αti+β)2.
  2. Рассмотрим другой пример. Пусть приближающая функция имеет вид x=tαt+β.
    Для xi ошибка будет равна δi=xitiαti+β
    и Δi=xi(αti+β)ti,(i=1,2,...,n).
    Установим связь между Δiи δi. Из (8) имеем αti+β=tixiδi.
    Тогда Δi=tixixiδiti=tiδixiδi,(i=1,2,...,n),
    Отсюда при малых Δi δi=xiΔiΔi+tixitiΔi.
    Для малых δi ni=1δ2ini=1(xitiΔi)2
    и ni=1(xitiΔi)2=ni=1(tiαtixiβxi)2(xiti)2.
    Таким образом, мы пришли к задаче (2) при условии, что приближаемая функция тождественно равна tи φ0(t)=tx(t),φ1(t)=x(t) и ρi=xi/ti.
    Погрешность приближения имеет вид σ=1nni=1(xitiαti+β)2.
  3. Наконец, пусть приближающая функция имеет вид x=αt+βγt+1.
    Задача состоит в нахождении коэффициентов α, β, γ, при которых величина ni=1δ2i=ni=1(xiαti+βγti+1)2
    будет минимальной. Линеаризуем эту задачу.
    Пусть Δi=γtixi+xiαtiβ,(i=1,2,...,n).
    Установим связь между Δiи δi. Из предыдущего получаем Δiγti+1=xiαti+βγti+1.
    Таким образом, имеем Δiγti+1=δi.
    Для малых δi получаем задачу, эквивалентную искомой ni=1(Δiγti+1)2=ni=1(xiαtiβ+γtixi)2(1γti+1)2min.
    Использовать метод наименьших квадратов не представляется возможным, так как в "вес" входит неизвестный параметр γuПоэтому рассмотрим итерационный метод пошагового уточнения весовых коэффициентов.
    Для задачи (2) положим φ0(t)=t,φ1(t)=1,φ2(t)=tx(t)и ρi=1. Решая эту задачу, получаем первое приближение α1,β1,γ1.
    Полагая теперь φ0(t)=t,φ1(t)=1,φ2(t)=tx(t),ρi=1γ1ti+1.и снова решая эту задачу, получаем α2,β2,γ2. Продолжая этот процесс при φ0(t)=t,φ1(t)=1,φ2(t)=tx(t),ρi=1γ2ti+1, получим следующее приближение значений α,β,γ.
    Итерацию будем продолжать до тех пор пока не будут выполняться соотношения {|αkαk1|<ε,|βkβk1|<ε,|γkγk1|<ε,
    где ε- заданная погрешность. Естественно, все множество используемых регрессионных моделей не исчерпывается дробно-линейными функциями, достаточно часто используются степенные и показательные функции.
  4. Будем искать приближающую функцию в виде x=αtβ. Для всех i=1,2,,n положим δi=xiαtβiи Δi=lnxilnαβlnti=lnxiαtβi.
    Далее, установим связь между этими величинами. Из первого равенства найдем αtβi=xiδiи подставим во второе Δi=lnxixiδi.
    Отсюда xiδi=xiexp(Δi)при малых Δiможем записать δi=xi(1exp(Δi))xiΔi.Таким образом, задачу минимизации величины ni=1δ2i можно заменить задачей минимизации величины ni=1(xiΔi)2=ni=1(lnxilnαβlnti)2x2i,
    которая является задачей (2).
    Погрешность приближения имеет вид σ=1nni=1(xiαtβi)2.
  5. Пусть приближающая функция задана в виде x=αβt. Для всех i=1,2,,n положим δi=xiαβti
    и Δi=lnxilnαtilnβ=lnxiαβti.
    Найдем связь между этими величинами.
    Выражая из первого равенства αβti=xiδi и подставляя во второе, получаем Δi=lnxixiδi.
    Следовательно, δi=xi(1exp(Δi))xiΔi.Таким образом, по аналогии, задачу минимизации величины ni=1δ2i можно заменить задачей минимизации величины ni=1(xiΔi)2=ni=1(lnxilnαtilnβ)2x2i,
    которая является задачей (2).
    Погрешность приближения будет иметь вид σ=1NNi=1(xiαβti)2.

Пример построения функции регрессии

Данные 2 в приведенном примере не могут быть корректно описаны монотонными функциями, поэтому при использовании степенной и показательной регрессии вместо значений параметров регрессии выводятся значения NaN.

Полиномиальная регрессия



Нелинейная регрессия



График


Данные


Сплайн-регрессионные модели.

Линейная фильтрация сигналов.

Одной из основных задач обработки данных является выделение сигналов на фоне помех. Для этой цели используется большое разнообразие методов преобразования исходных данных, которые сводятся к линейной или нелинейной фильтрации.
В нашем случае под фильтрацией понимается преобразование экспериментальных данных для разделения сигналов и помех.
Сигнал– это форма проявления данных, в которую облечена полезная информация.
Помеха – любое возмущение, препятствующее выделению полезной информации.


Оригинальный сигнал + помехи = исходные данные.

В настоящее время наиболее широкое распространение получили линейные фильтры, построение которых осуществляется обычно в рамках аддитивной модели, т.е. когда результаты наблюдений представлены в виде суммы сигнала и помехи.
Сигнал может быть либо детерминированным, либо случайным процессом. Помеха чаще всего описывается случайным стационарным процессом с известными или неизвестными корреляционными (спектральными) свойствами.

Логистическая регрессия и задача классификации.

Теперь поговорим о проблеме классификации с точки зрения МНК. В отличие от задачи регрессии, задача классификации сводится к тому, что прогнозируемая величина принимает значения из заданного конечного множества. Рассмотрим случай бинарной классификации, то есть, величина xi может принимать только два значения: 0 и 1.
Это не так и плохо, бинарная классификация, достаточно распространенный случай - "любит - не любит", "плюнет - поцелует", в конце концов, "true-false".
Итак, пусть регрессионная модель имеет вид f(A,t)=g(ATt)=11+exp(ATt),A=(a0a1a2an),t=(1t1t2tn)
и g(z)=11+ez.
Данная модель называется логистической, а функция (12) называется сигмоидом.
Ясно, что при z будет g(z)0 и при z будет g(z)1.
Будем считать, что наблюдаемые значения могут быть принимать только два значения xi={0,1}.


Графики логистической регрессии по множеству красных точек, синих точек и общая (черным цветом).

Выпишем производную сигмоида, это нам понадобится в дальнейшем. g(z)=ddz11+ez=1(1+ez)2ez=1(1+ez)2(111+ez)=g(z)(1g(z)).
Рассматривая линейную регрессию как вероятностную модель, мы пришли к задаче максимального правдоподобия. Применим эту же идею к логистической регрессии.
Пусть P(x=1|T,A)=f(A,T),
P(x=0|T,A)=1f(A,T).
Тогда p(x|T,A)=(f(A,T))x(1f(A,T))1x.
Полагая, что все наблюдения независимы, получаем функцию правдоподобия L(A)=p(X|T,A)=Ni=0p(xi|Ti,A)=Ni=0(f(A,Ti))xi(1f(A,Ti))1xi.
В силу монотонности, для поиска максимума вместо функции правдоподобия можно рассмотреть ее логарифм (A)=lnL(A)=Ni=0(xilnf(A,Ti))+(1xi)(1f(A,Ti))=Ni=0(xilnf(A,Ti))+(1xi)ln(1f(A,Ti)).
Остается найти производную, приравнять нулю и найти решение полученной задачи aj(A)=(x1g(ATT)(1x)11g(ATT))ajg(ATT)=g(ATT)(1g(ATT))ajATT=
=(x(1g(ATT))(1x)g(ATT))Tj=(xg(ATT))Tj.
Замечая, что g(z)=g(z)(1g(z)), приходим к задаче стохастического градиентного спуска a:=a+αa(A), и при этом, aj:=aj+α(xg(ATT))Tj
и a(A)=Ni=0(xig(ATTi))Ti.

Вернемся к определению логистической регрессии с вероятностной точки зрения.

Логистическая регрессия, как и линейная регрессия, относится к обобщенным линейным моделям (generalized linear models), что может быть записано в виде xi|Ti:AN(TiA,σ2).
или, что то же самое, Ti:AN(a0+a1ti,1+...anti,n,σ2).
Отсюда имеем X=a0TT0+a1TT1+...anTTn+E,EN(0,σ2),TT0=(1111),TT1=(t0,1t1,1t2,1tN,1),...,TTn=(t0,nt1,nt2,ntN,n).
Логистическую регрессию определим следующим образом ln(p(t)1p(t))=a0TT0+a1TT1+...anTTn.
В случае использования двух исходов - положительного xi=1 и отрицательного xi=0 p(t)1p(t)=P[X=1|T=t]1P[X=0|T=t].
Логистическая регрессия гарантирует вычисление значения между 0 и 1: p(TTi)=[xi=1|Ti=ti]=exp(a0TT0+a1TT1+...anTTn)1+exp(a0TT0+a1TT1+...anTTn).
Приведем сравнение линейной и логистической регрессии
Линейная регрессия Логистическая регрессия
Закон распределения Y|X=x N(μ(x),σ2) Bern(p(x))
Название закона распределения НормальныйБернулли (биномиальный)
E[Y|X=x] μ(x) p(x)
Принимаемые значение (,) 0,1
Использование Числовые данные Бинарные данные (класс: Да/Нет)
Связь η(x)=μ(x) η(x)=ln(p(x)1p(x))
Значение μ(x)=η(x) p(x)=exp(η(x))1+exp(η(x))=11+exp(η(x))

В завершение добавим, что построение логистической кривой позволяет решать задачу классификации, так для бинарного случая, если для наблюдения значение логистической регресии меньше выбранного порога, например, значения 0.5, то это наблюдение из класса 0, иначе из класса 1.

Таким образом, качество классификатора существенно зависит от выбора порога. Далее поговорим о том как выбирать порог.

ROC-кривые и их анализ.

Эта часть написана по данным мотивам.
ROC означает Receiver Operating Characteristic (от Signal Detection Theory)-рабочая (эксплуатационная) характеристика приемника.
Кривые ROC часто используются для графического отображения связи / компромисса между клинической чувствительностью и специфичностью для каждого возможного отсечения для теста или комбинации тестов.
Площадь под ROC-кривой является мерой полезности классификатора в целом, при этом большая площадь означает более эффективный классификатор, поэтому области под ROC-кривыми используются для сравнения качества классификаторов.
ROC-кривые впервые были применены после японского нападения на Перл-Харбор в 1941 году, с целью изучения качества систем распознавания радиосигналов при наличии шума. Первоначальное исследование было мотивировано желанием определить, как американские операторы радиолокационных станций пропустили японские самолеты. Первоначально ROC-кривые использовались для отделения сигнала от шума, чем и обусловлено их использование как двоичных классификаторов.
ROC-кривые строятся путем использования доли принадлежности к одному и другому классам - True Positives и False Positives.


Отложим на оси абсцисс значение FPR, а по оси ординат TPR. Ясно, что диагональ, идущая от начала координат соответствует классификатору со случайным выбором класса.


ROC-кривая для случайного классификатора, с предсказанием попадания
в класс 0 (с точностью 100%), в класс 1 (с точностью 100%) и в класс 1 (с точностью 80%).

Пусть имеется пять наблюдений классификатора Ci,i=1,..,5.


Построение ROC-кривой для наблюдений классификатора Ci,i=1,..,5.


Выпуклая оболочка наблюдений классификатора Ci,i=1,..,5 и тривиальных набюлюдений (вершины квадрата).

Точки, лежащие ниже выпуклой оболочки (внутри ее подграфа) являются субоптимальными, то есть, соответствуют заведомо худшим классификаторам. В данном случае это C3.
Существует достаточно простая связь между введенными ранее характеристиками классификатора. TPR=ACCnegpos+negposFPR,
где neg=NEGN, pos=POSN, здесь NEG количество отрицательных результатов, POS количество положительных результатов и N- общее количество наблюдений.
Это соотношение получается из цепочки равенств ACC=TP+TNN=TPN+TNN=TPPOSPOSN+NEGFPN=TPPOSPOSN+TPPOSPOSN+NEGTNN=TPPOSPOSN+NEGNFPNEGNEGN=TRPpos+negFPR.

Замечая, что TPR это ось 0y, а FPR ось 0x, получаем y=ax+b,y=TPR,x=FPR,a=negpos,b=ACCnegpos.
Отношение neg / pos - это наклон линии, меняя это соотношение и меняя точность, можем получить много параллельных линий с одинаковым наклоном. Более высокие линии соответствуют лучшей точности классификатора. Ясно, что соотношение neg / pos представляет собой приемлимое отношение неправильно и правильно классифицированных наблюдений. Точность классификации определяется пересечением соответствующей линии и второй диагональю (на картинке - это линия синего цвета).
neg/pos=1neg/pos=0.5
Приведем иллюстрацию нахождения оптимального классификатора для рассмотренного примера при разных отношениях neg / pos.
neg/pos=1/1neg/pos=1/4neg/pos=4/1
Наилучший классификатор C2Наилучший классификатор C4Наилучший классификатор C1
Точность 81%Точность 83%Точность 82%

Пример.


Построение ROC-кривой.


Использование ROC-кривой для нахождения лучшего классификатора для отношения neg/pos=1/1.


Площадь подграфика ROC-кривой.
Чем больше площаль, тем лучше метод классикации.


Примеры ROC-кривых для разных классификаторов.

Полезная литература. Книги.

  1. Bjorck A. Numerical Methods For Least Squares Problems / A.Bjorck .— Philadelphia: SIAM, 1996 .— 427 p.
  2. Cheung K.W. Least Squares Algorithms for Time-of-Arrival-Based Mobile Location / K.W.Cheung, H.So, Y.Chan // IEEE Transactions on Signal Processing .— 2004 .— №4(52) .— P.1121-1128.
  3. Hosmer D.W. Applied Logistic Regression / D.W. Hosmer, S. Lemeshow. — Hoboken: John Wiley & Sons, Inc, 2000. — 397 p.
  4. Rawlings J. Applied regression analysis: a research tool. — 2nd ed. / John O. Rawlings, Sastry G. Pentula, David A. Dickey: Springer, 1998 .— 659 с.
  5. Schleicher C. Kolmogorov-Wiener Filters for Finite Time-Series / Christoph Schleicher. — 2003. — 48 p.
  6. Vaseghi S. Advanced Digital Signal Processing and Noise Reduction / Saeed V. Vaseghi. — Chichester: John Wiley & Sons, Inc., 2006. — 480 p.
  7. Weisberg S. Applied Linear Regression / S. Weisberg. — Hoboken, New Jersey: John Wiley & Sons, Inc., 2005. — 325 p.
  8. Вапник В.Н. Восстановление зависимостей по эмпирическим данным / В.Н.Вапник .— М: Наука, 1979 .— 448 с.
  9. Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин).— 141 с.
  10. Губанов В.С. Обобщенный метод наименьших квадратов. Теория и применение в астрометрии / В.С.Губанов .— СПб: Наука, 1997 .— 318 с.
  11. Дрейпер Н. Прикладной регрессионный анализ / Н.Дрейпер, Г.Смит; Книга 1 .— М.: Финансы и статистика, 1986 .— 369 с.
  12. Дрейпер Н. Прикладной регрессионный анализ / Н.Дрейпер, Г.Смит; Книга 2 .— М.: Финансы и статистика, 1986 .— 369 с.
  13. Колос М.В. Методы оптимальной фильтрации / М.В.Колос, И.В.Колос .— М: Изд-во МГУ, 2000 .— 102 с.
  14. Методы цифровой обработки сигналов для решения прикладных задач. / Под ред. В.И.Марчука .— М.: Радиотехника, 2012 .— 128 с.
  15. Лигун А.А. Асимптотические методы восстановления кривых / А.А.Лигун, А.А.Шумейко .— К.: Изд. Института математики НАН Украины, 1997 .— 358 с.
  16. Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений / Ю.В.Линник .— М: Наука, 1962 .— 349 с.
  17. Лоусон Ч. Численное решение задач метода наименьших квадратов / Ч.Лоусон, Р.Хенсон .— М: Наука, 1986 .— 232 с.
  18. Любимцев О.В. Линейные регрессионные модели в эконометрике / О.В.Любимцев, О.Л.Любимцева; Учебное пособие .— Нижний Новгород: ННГАСУ, 2016 .— 45 с.
  19. Мазмишвили А.И. Теория ошибок и метод наименьших квадратов / А.И.Мазмишвили .— М.: Недра, 1978 .— 311 с.
  20. Носко В.П. Эконометрика. Введение в регрессионный анализ временных рядов. / В.П.Носко .— М, 2002 .— 254 с.
  21. Себер Д. Линейный регрессионный анализ / Д. Себер. — М: Мир, 1980. — 456 с.
  22. Стрижов В.В. Методы выбора регрессионных моделей / В.В.Стрижов, Е.А.Крымова .— М: Вычислительный центр РАН, 2010 .— 60 с.
  23. Ферстер Э. Методы корреляционного и регрессионного анализа / Э.Ферстер, Б.Ренц .— М.: Статистика и финансы, 1983 .— 302 с.
  24. Шашков В.Б. Прикладной регрессионный анализ. Многофакторная регрессия. / В.Б.Шашков; Учебное пособие .— Оренбург: ГОУ ВПО ОГУ, 2003 .— 363 с.
  25. Шумейко А.А., Сотник С.Л. Интеллектуальный анализ данных (Введение в Data Mining).-Днепропетровск:Белая Е.А., 2012.- 212 с.

Полезная литература. Статьи.

  1. Angrist J. Two-Stage Least Squares Estimation of Average Causal Effects in Models With Variable Treatment Intensity./ Joshua D. Angrist, Guido W. Imbens // Journalofthe American Statistical Association. — 1995. — №430(90). — P.431–442.
  2. Cantrell C. A. Technical Note: Review of methods for linear least-squares fitting of data and application to atmospheric chemistry problems./ C. A. Cantrell // Atmos. Chem. Phys. — 2008. — №8. — P.5477–5487.
  3. Golub G.H. Numerical methods for solving linear least squares problems. / G.H.Golub // Aplikace matematiky. — 1965. — Vol. 10, No. 3. — P.213-216.
  4. Fawcett T. An introduction to ROC analysis. / Tom Fawcett // Pattern Recognition Letters. — 2006. — № 27. — P.861-874.
  5. Smyth G. Nonlinear regression / G.Smyth // Encyclopedia of Environmetrics: John Wiley & Sons, Ltd, Chichester .— 2002 .— Vol.3 .— P.1405–1411.
  6. Sorenson H.W. Least-squares estimation: from Gauss to Kalman. / H. W. Sorenson // IEEE spectrum. — 1970. — july. — P.63-68.
  7. Yuan J. Numerical methods for generalized least squares problems./ Jin Yun Yuan // Journal of Computational and Applied Mathematics. — 1996. — 66. — P.571-584.
  8. Андреев В.А. Универсальные многофакторные регрессионные модели коммерческой результативности инноваций в России./ В.А.Андреев, Д.А.Чупикин // Труды ИСА РАН. — 2011. — №1, Том 61. — С.66-76
  9. Кисин Ю.К. О применении алгоритмов на основе метода наименьших квадратов и конечных формул в задачах траекторных измерений / Ю.К.Кисин // Вестник Концерна ВКО "Алмаз-Антей" .— 2016 .— №3 .— C.74-80.
  10. Лапин А.П. Применение взвешенного метода наименьших квадратов при исследовании функции преобразования вихреакустических расходомеров / А.П.Лапин, А.Дружков // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника» .— 2013 .— №3(13) .— C.109-113.
  11. Логистическая регрессия и ROC-анализ — математический аппарат.
  12. Мазуров Б.Т. Метод наименьших квадратов (статика, динамика, модели с уточняемой структурой) / Б.Т.Мазуров, В.А.Падве // Вестник СГУГиТ .— 2017 .— №2(22) .— C.22-35.
  13. Шумейко А.А. О построении асимптотически оптимальной кусочно-линейной регрессии. / А.А. Шумейко, Е.А. Шумейко // Інформатика та математичні методи в моделюванні. — 2011. — № 2 (1). — C.99-106.

Вопрос-ответ.

Задать вопрос:

оптимаотных - опечатка