Time Series Forecasting

Прогнозирование значений временного ряда.

Получение прогнозного значения опирается на информацию о каждом компоненте временного ряда \begin{equation}\label{2.1} Y_t = T_t + C_t + S_t + \varepsilon_t, \end{equation} где
  1. \(T_t\) - глобальный тренд,
  2. \(C_t\) - цикличный компонент,
  3. \(S_t\) - сезонная составляющая,
  4. а \(\varepsilon_t\) - нерегулярный компонент.
Простейшей моделью глобального тренда является постоянная \(\hat{y}_{t+1}\equiv c\) с весами, убывающими в прошлое \[ \sum_{i=0}^t\omega^{t-i}(y_i-c)^2\to\min_c,\omega\in (0,1). \] Для решения этой задачи найдем производную по \(c\) и приравняем нулю. Полученная формула носит имя Надарая-Ватсона - \[ c=\frac{\sum_{i=0}^t\omega^iy_{t-i}}{\sum_{i=0}^t\omega^i}. \] Оценим прогноз \(\hat{y}_{t+1}\). Для достаточно больших значений \(t\) \[ \sum_{i=0}^t\omega^i\approx \sum_{i=0}^\infty\omega^i=\frac{1}{1-\omega}. \] Отсюда \(\hat{y}_{t+1}=\hat{y}_{t}\omega+(1-\omega)y_t\). Полагая \(\alpha=1-\omega\), получаем \begin{equation}\label{2.2} \hat{y}_{t+1}=\hat{y}_{t}+\alpha(y_t-\hat{y}_{t})=\alpha y_t+(1-\alpha)\hat{y}_{t}. \end{equation} Стартовое значение \(\hat{y}\) должно задаваться с учетом априорной информации. Часто используется среднее значение ряда или среднее значение наблюдений в предыстории, если она доступна. Также в качестве \(\hat{y}_0\) может быть положено значение \(y_1\).
Коэффициент \(\alpha \in (0,1)\) (см. раздел по предобработке данных ) называется параметром сглаживания, а полученное соотношение называется экспоненциальным скользящим средним.
Аналогично из среднего арифметического имеем \[ \hat{y}_{t+1}=\frac{1}{t+1}\sum_{i=0}^ty_t=\hat{y}_t+\frac{1}{t+1}(y_t-\hat{y}_t). \] Таким образом, при \(\alpha_t=\frac{1}{t+1}\) из экспоненциального скользящего среднего получаем среднее арифметическое.
Для (\ref{2.2}) получаем следующие рекомендации -
Увеличение значения \(\alpha\) приводит к большей значимости последних точек, а при \(\alpha\to 1\) получаем тривиальный прогноз \(\hat{y}_{t+1}=y_t\).
Уменьшение значения \(\alpha\) приводит к большему сглаживанию данных и при \(\alpha\to 0\) получаем тривиальный прогноз \(\hat{y}_{t+1}=\bar{y}\).
Оптимальный параметр \(\alpha^*\) определим в соответствии со скользящим контролем \[ \varepsilon(\alpha)=\sum_{t=T_0}^{T_1}(\hat{y}_t(\alpha)-y_t)^2\to\min_\alpha. \]
Эмпирические правила: Рассмотрим пример.
А76 А92 А95 А95+ ДТ Газ 2018-10-182018-10-262018-11-032018-11-112018-11-192018-11-272018-12-052018-12-132018-12-212018-12-292019-01-06101520253035 Цены на топливо
Дата
А76
А92
А95
А95+
ДТ
Газ

Для выбранного топлива имеем долговременный прогноз с=13.89.

Ясно, что константный тренд не является наиболее распространенным. Рассмотрим другие варианты.

Модель Хольта.

Следующим по простоте (после константного тренда) идет линейный тренд без периодических эффектов: \[ \hat{y}_{t+h}=a_t+b_th, \] здесь \(a_t,b_t\)- коэффициенты линейного тренда. Реккурентные соотношения для их поиска выглядят следующим образом \[ a_t=\alpha_1y_t+(1-\alpha_1)(a_{t-1}+b_{t-1}), b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, \] где \(\alpha_1,\alpha_2-\) параметры сглаживания.
Частным случаем модели Хольта является модель линейного роста Брауна, для которой \[ \alpha_1=1-\omega^2,\alpha_2=1. \]

Модель Тейла-Вейджа.

Линейный тренд с аддитивной периодичностью \(s\) \[ \hat{y}_{t+h}=(a_t+b_th)+\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, \] где \(a_t+b_th\) тренд, очищенный от периодических колебаний, \(\theta_0,...,\theta_{s-1}\)- периодический профиль периода \(s\) без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения \[ a_t=\alpha_1(y_t-\theta_{t-s})+(1-\alpha_1)(a_{t-1}+b_{t-1}), \] \[ b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, \] \[ \theta_t=\alpha_3(y_t-a_{t})+(1-\alpha_3)\theta_{t-s}. \] Как и ранее, \(\alpha_1,\alpha_2,\alpha_3\) - параметры сглаживания.

Модель Уинтерса.

Мультипликативная периодичность с периодом \(s\): \[ \hat{y}_{t+h}=a_t\cdot \theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, \] \(\theta_0,...,\theta_{s-1}\)- периодический профиль периода \(s\).
Реккурентная формула: \[ a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)a_{t-1}, \] \[ \theta_t=\alpha_2(y_t/a_{t})+(1-\alpha_2)\theta_{t-s}, \] \(\alpha_1,\alpha_2\) - параметры сглаживания.

Линейная модель Уинтерса.

Мультипликативная периодическая модель с линейным трендом \[ \hat{y}_{t+h}=(a_t+b_th)\cdot\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, \] где \(a_t+b_th\) тренд, очищенный от периодических колебаний, \(\theta_0,...,\theta_{s-1}\)- периодический профиль периода \(s\) без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения \[ a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)(a_{t-1}+b_{t-1}), \] \[ b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, \] \[ \theta_t=\alpha_3(y_t/a_{t})+(1-\alpha_3)\theta_{t-s}. \] \(\alpha_1,\alpha_2,\alpha_3\) - параметры сглаживания.

Модель Уинтерса с экспоненциальным трендом

Мультипликативная периодическая модель с экспоненциальным трендом \[ \hat{y}_{t+h}=a_t(b_t)^h\cdot\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, \] где \(a_t(b_t)^h\) тренд, очищенный от периодических колебаний, \(\theta_0,...,\theta_{s-1}\)- периодический профиль периода \(s\) без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения \[ a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)a_{t-1}b_{t-1}, \] \[ b_t=\alpha_2(a_t/a_{t-1})+(1-\alpha_2)b_{t-1}, \] \[ \theta_t=\alpha_3(y_t/a_{t})+(1-\alpha_3)\theta_{t-s}. \] \(\alpha_1,\alpha_2,\alpha_3\) - параметры сглаживания.

Адаптивная авторегрессионная модель.

Пусть \[ \hat{y}_{t+1}(\omega)=\sum_{j=1}^n\omega_iy_{t-i+1}, \] и \(\varepsilon_t=y_t-\hat{y}_t\) - ошибка прогноза на шаге \(t\).
Для нахождения весов используем метод наименьших квадратов \[ \varepsilon^2_t\to \min_\omega. \] Применяя метод градиентного спуска, получаем для времени \(t\) \[ \omega_j\to \omega_t+\epsilon_t\varepsilon_ty_{t-j+1}, \] где градиентный шаг \[ \epsilon_t=\frac{\alpha}{\sum_{j=1}^ny^2_{t-j+1}}, \] и \(\alpha\) параметр сглаживания.

На данном графике представлена динамика экспоненциального скользящего среднего ошибок прогнозов для различных моделей объемов продаж. Достаточно тривиальной будет идея использования удачных моделей и при этом отбрасывать менее удачные.

Адаптивная селективная модель.

Пусть имеется \(k\) моделей прогнозирования,
\(\hat{y}_{j,t+h}\) - прогноз \(j-\)й модели на момент \(t+h\),
\(\varepsilon_{j,t}=y_t-\hat{y}_{j,t}\) - ошибка прогноза \(j\)- й модели на шаге \(t\),
\(\tilde{\varepsilon}_{j,t}=\gamma |\varepsilon_{j,t}|+(1-\gamma)\tilde{\varepsilon}_{j,t-1}\)- экспоненциальное скользящее среднее модуля ошибки.
Тогда лучшей моделью в момент времени \(t\) будет \[ j^*_t=\arg\min_{j=1,...,k}\tilde{\varepsilon}_{j,t}. \] Адаптивная селективная модель реализует прогноз по лучшей модели \[ \hat{y}_{j,t+h}\to \hat{y}_{j^*_t,t+h}. \] Эмпирическая рекомендация к выбору \(\gamma\in(0.01,0.1)\).

Адаптивная композиция моделей.

Пусть имеется \(k\) моделей прогнозирования,
\(\hat{y}_{j,t+h}\) - прогноз \(j-\)й модели на момент \(t+h\),
\(\varepsilon_{j,t}=y_t-\hat{y}_{j,t}\) - ошибка прогноза \(j\)- й модели на шаге \(t\),
\(\tilde{\varepsilon}_{j,t}=\gamma |\varepsilon_{j,t}|+(1-\gamma)\tilde{\varepsilon}_{j,t-1}\)- экспоненциальное скользящее среднее модуля ошибки.
Адаптивная композиция моделей опирается на их линейную комбинацию \[ \hat{y}_{t+h}=\sum_{j=1}^n\omega_{j,t}\hat{y}_{j,t+h}, \sum_{j=1}^n\omega_{j,t}=1, \forall t \] и веса подбираются следующим образом \[ \omega_{j,t}=\frac{\tilde{\varepsilon}_{j,t}^{-1}}{\sum_{\nu=1}^k\tilde{\varepsilon}_{\nu,t}^{-1}}. \] Требования к \(\gamma\) те же, что и в предыдущем случае.

Проверка адекватности и точности моделей.

Традиционно считается, что модель адекватна описываемому процессу, если ошибка (нерегулярный компонент) является случайной независимой величиной, которая подчиняется нормальному закону распределения.

Проверка гипотезы о независимости остатков. Критерий Дарбина-Уотсона.

Критерий Дарбина-Уотсона позволяет обнаружить автокорреляцию первого порядка - \[ d=\frac{\sum_{i=2}^t(\varepsilon_i-\varepsilon_{i-1})}{\sum_{i=1}^t\varepsilon^2_i}\approx 2(1-r_1), \] где \(r_1\) коэффициент автокорреляции первого порядка.
Если ряд остатков обладает сильной положительной автокорреляцией, то \(d\to 0\), сильной отрицательной автокорреляцией - \(d \to 4\). При отсутствии автокорреляции \(d\approx 2\). Практическое применение этого критерия опирается на сравнение значений \(d\) с табулированными значениями
ПоказательМодель
\(a+bt\)\(a+bt+ct^2\)\(y=ab^t\)\(y=c-ab^t\)\(y=\frac{c}{1+be^{-at}}\)\(y=ca^{b^t}\)
ЛинейнаяКвадратичнаяЭкспоненциальнаяМодифицированная экспонентаЛогистическаяКривая Гомперца
\(d_1\)1.551.521.551.551.551.55
\(d_2\)1.671.701.671.671.671.67
Если
  1. \(d\lt d_1\), гипотеза о независимости случайных отклонений отвергается (положительная автокорреляция),
  2. \(d\gt d_2\), гипотеза не отвергается,
  3. \(d_1\le d\le d_2\), нет достаточных оснований для принятия решения (опять эта проклятая неопределенность!)
В случае, если полученное значение \(d\gt 2\), то с табулированными значениями сравнивается не \(d\), а \(4-d\).

Проверка гипотезы о подчиненности остатков нормальному закону распределения.

Для проверки гипотезы будем опираться на показатели ассиметрии и эксцесса. В случае наличия нормального распределения эти характеристики равны нулю.
Пусть \[ Asymmetry=\frac{\frac{1}{t}\sum_{i=1}^t\varepsilon^4_i}{\sqrt{\left(\frac{1}{t}\sum_{i=1}^t\varepsilon^2_i\right)^3}}, Excess=\frac{\frac{1}{t}\sum_{i=1}^t\varepsilon^3_i}{\sqrt{\left(\frac{1}{t}\sum_{i=1}^t\varepsilon^2_i\right)^3}}-3. \] Если одновременно выполняются неравенства \[ \left|Excess+\frac{6}{n+1}\right|\lt 1.5\cdot\sqrt{\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}}; \left|Asymmetry\right|\lt 1.5\cdot\sqrt{\frac{6(n-2)}{(n+1)(n+3)}}, \] то гипотеза о нормальном характере распределения случайной компоненты не отвергается.