Spline Regression

Вначале приведем необходимые определения.
Сплайном порядка \(r\) дефекта \(k\) по произвольному разбиению \(\Delta_n=\left\{a=t_{0}\lt t_{1}\lt \ldots \lt t_{n-1}\lt t_{n}=b\right\} \) отрезка \([a,b]\) называется \((r-k)\) - раз непрерывно дифференцируемая на отрезке \([a,b]\) функция \(s_{r,k}(\Delta_n,t)\), которая на каждом промежутке \((t_{i-1},t_{i})\,\,(i=0,1,\ldots,n)\) является алгебраическим многочленом степени не выше \(r\).
Пусть \(S_{r,k}(\Delta_n)\) - множество всех полиномиальных сплайнов порядка \(r\) дефекта \(k\) по разбиению \(\Delta_n\).
Наиболее популярными как в математике, так и в ее приложениях, являются сплайны минимального дефекта \(S_{r}(\Delta_n)= S_{r,1}(\Delta_n)\), т.е. сплайны \(s_{r,k}(\Delta_n,t)\) при \(k=1\). При этом практические потребности более чем на 90% удовлетворяются сплайнами первого, второго и третьего порядков.
Pаспространенной задачей обработки данных является их описание (восстановление) некоторой функцией \(у(х)\) из известного множества \(Y\). Задача регрессии заключается в получении параметров этой функции так, чтобы полученная функция приближала облако исходных точек с наименьшей среднеквадратичной погрешностью.
В случае непрерывных данных \(x(t),\, t\in [a,b]\) эта задача сводится к решению \begin{equation}\label{c} \int_a^b\left(x(t)-y(t)\right)^2dt\to \min\left\{y:y\in Y\right\}, \end{equation} а в случае дискретных данных \((t_i,x_i),\,i=0,...,N\) к задаче \begin{equation}\label{nc} \sum_{i=0}^N\left(x_i-y(t_i)\right)^2\to \min\left\{y:y\in Y\right\}. \end{equation} Далее будут рассмотрены некоторые задачи для \(Y=S_{r,1}(\Delta_n)\) при \(r=1,2\).
Приведем пример построения ломаной методом наименьших квадратов.


Приближение дискретных данных ломаной по МНК.

Описанный метод построения кусочно-линейной регрессионной модели опирается на априорную информацию об узлах ломаной. Как правило, с выбором узлов не заморачиваются, а берут равноотстоящие, то есть равномерное разбиение. Но, как видно из приведенного случая, получается, "где густо, а где - пусто", что не всегда "есть хорошо". Поэтому уделим внимание построению кусочно-линейной модели с оптимальными, точнее асимптотически оптимальными узлами. Данные результаты опираются на информацию, приведенную в appendix C.
Алгоритм оптимального выбора узлов имеет простую геометрическую интерпретацию, приведенную на следующем изображенн


Алгоритм выбора узлов, где \( \Psi(t)=\int_a^t|x^{(r+1)}(\tau)|^\alpha d\tau. \)

Используя теорему Холлидея, получаем, что сплайн-регрессионная модель порядка \(r=2\) совпадает с третьей производной сплайна порядка 5 минимального дефекта, интерполирующего третью первообразную \(X(t)\), такую, что \(X(0)=X'(0)=X''(0)=0\) c узлами, определенными в теореме А.
Для получения кубических регрессионных сплайнов нужно использовать аналог теоремы А для интерполяционных сплайнов степени семь.

Построение параболического регрессионного сплайна.

На первый взгляд задачи (\ref{c}) и (\ref{nc}) совершенно разные, но замечая, что \[ x_i={x}_i\int_E{\delta(t-t_i)}dt=\int_a^b{\hat{x}(t)\delta(t-t_i)}dt, \] где \(\delta(t)-\) дельта-функция Дирака, \(E\subset [a,b]\) такое, что \(t_i\in E\), а \(\hat{x}(t)\) любая непрерывная на \([a,b]\) функция, такая, что \(\hat{x}(t_i)=x_i\), легко перейти от дискретной постановки задачи к непрерывной.
В рассматриваемом случае множеством функции регрессии \(Y\) будет множество параболических сплайнов минимального дефекта.
Сплайн \(s_{2r-1}(x,\Delta_n)\in S_{2r-1,1}(\Delta_n)\) (то есть сплайн порядка \(2r-1\) минимального дефекта по разбиению \(\Delta_n\)) называется интерполяционным, если он таков, что \[ s_{2r-1}(x,\Delta_n,t_{i})=x_{i} (i=0,1,\ldots,n), \] и выполняются граничные условия \begin{equation}\label{1.16} s_{2r-1}^{(\nu)}(x,\Delta_n,i)=x^{(\nu)}(i) (i=a,b;\nu=0,1,\ldots,r-1), \end{equation} или периодические граничные условия \begin{equation}\label{1.17} s_{2r-1}^{(\nu)}(x,\Delta_n,a)=s_{2r-1}^{(\nu)}(x,\Delta_n,b) (\nu=0,1,\ldots,2r-2). \end{equation} Интерполяционные сплайны являются очень популярным инструментом для описания данных, однако, если исходной информации много и она дана с ошибкой, то применение интерполяционных сплайнов не эффективно. В таком случае используют регрессионные модели, то есть, аппрокисимационные аппараты, наилучшим образом восстанавливающие данные методом наименьших квадратов. В данной работе предложен метод построения параболического регрессионного сплайна.