Processing math: 2%

Time Series Forecasting

Прогнозирование значений временного ряда.

Получение прогнозного значения опирается на информацию о каждом компоненте временного ряда Yt=Tt+Ct+St+εt, где
  1. Tt - глобальный тренд,
  2. Ct - цикличный компонент,
  3. St - сезонная составляющая,
  4. а εt - нерегулярный компонент.
Простейшей моделью глобального тренда является постоянная ˆyt+1c с весами, убывающими в прошлое ti=0ωti(yic)2min Для решения этой задачи найдем производную по c и приравняем нулю. Полученная формула носит имя Надарая-Ватсона - c=\frac{\sum_{i=0}^t\omega^iy_{t-i}}{\sum_{i=0}^t\omega^i}. Оценим прогноз \hat{y}_{t+1}. Для достаточно больших значений t \sum_{i=0}^t\omega^i\approx \sum_{i=0}^\infty\omega^i=\frac{1}{1-\omega}. Отсюда \hat{y}_{t+1}=\hat{y}_{t}\omega+(1-\omega)y_t. Полагая \alpha=1-\omega, получаем \begin{equation}\label{2.2} \hat{y}_{t+1}=\hat{y}_{t}+\alpha(y_t-\hat{y}_{t})=\alpha y_t+(1-\alpha)\hat{y}_{t}. \end{equation} Стартовое значение \hat{y} должно задаваться с учетом априорной информации. Часто используется среднее значение ряда или среднее значение наблюдений в предыстории, если она доступна. Также в качестве \hat{y}_0 может быть положено значение y_1.
Коэффициент \alpha \in (0,1) (см. раздел по предобработке данных ) называется параметром сглаживания, а полученное соотношение называется экспоненциальным скользящим средним.
Аналогично из среднего арифметического имеем \hat{y}_{t+1}=\frac{1}{t+1}\sum_{i=0}^ty_t=\hat{y}_t+\frac{1}{t+1}(y_t-\hat{y}_t). Таким образом, при \alpha_t=\frac{1}{t+1} из экспоненциального скользящего среднего получаем среднее арифметическое.
Для (\ref{2.2}) получаем следующие рекомендации -
Увеличение значения \alpha приводит к большей значимости последних точек, а при \alpha\to 1 получаем тривиальный прогноз \hat{y}_{t+1}=y_t.
Уменьшение значения \alpha приводит к большему сглаживанию данных и при \alpha\to 0 получаем тривиальный прогноз \hat{y}_{t+1}=\bar{y}.
Оптимальный параметр \alpha^* определим в соответствии со скользящим контролем \varepsilon(\alpha)=\sum_{t=T_0}^{T_1}(\hat{y}_t(\alpha)-y_t)^2\to\min_\alpha.
Эмпирические правила: Рассмотрим пример.
А76 А92 А95 А95+ ДТ Газ 2018-10-182018-10-262018-11-032018-11-112018-11-192018-11-272018-12-052018-12-132018-12-212018-12-292019-01-06101520253035 Цены на топливо
Дата
А76
А92
А95
А95+
ДТ
Газ

Для выбранного топлива имеем долговременный прогноз с=13.89.

Ясно, что константный тренд не является наиболее распространенным. Рассмотрим другие варианты.

Модель Хольта.

Следующим по простоте (после константного тренда) идет линейный тренд без периодических эффектов: \hat{y}_{t+h}=a_t+b_th, здесь a_t,b_t- коэффициенты линейного тренда. Реккурентные соотношения для их поиска выглядят следующим образом a_t=\alpha_1y_t+(1-\alpha_1)(a_{t-1}+b_{t-1}), b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, где \alpha_1,\alpha_2- параметры сглаживания.
Частным случаем модели Хольта является модель линейного роста Брауна, для которой \alpha_1=1-\omega^2,\alpha_2=1.

Модель Тейла-Вейджа.

Линейный тренд с аддитивной периодичностью s \hat{y}_{t+h}=(a_t+b_th)+\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, где a_t+b_th тренд, очищенный от периодических колебаний, \theta_0,...,\theta_{s-1}- периодический профиль периода s без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения a_t=\alpha_1(y_t-\theta_{t-s})+(1-\alpha_1)(a_{t-1}+b_{t-1}), b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, \theta_t=\alpha_3(y_t-a_{t})+(1-\alpha_3)\theta_{t-s}. Как и ранее, \alpha_1,\alpha_2,\alpha_3 - параметры сглаживания.

Модель Уинтерса.

Мультипликативная периодичность с периодом s: \hat{y}_{t+h}=a_t\cdot \theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, \theta_0,...,\theta_{s-1}- периодический профиль периода s.
Реккурентная формула: a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)a_{t-1}, \theta_t=\alpha_2(y_t/a_{t})+(1-\alpha_2)\theta_{t-s}, \alpha_1,\alpha_2 - параметры сглаживания.

Линейная модель Уинтерса.

Мультипликативная периодическая модель с линейным трендом \hat{y}_{t+h}=(a_t+b_th)\cdot\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, где a_t+b_th тренд, очищенный от периодических колебаний, \theta_0,...,\theta_{s-1}- периодический профиль периода s без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)(a_{t-1}+b_{t-1}), b_t=\alpha_2(a_t-a_{t-1})+(1-\alpha_2)b_{t-1}, \theta_t=\alpha_3(y_t/a_{t})+(1-\alpha_3)\theta_{t-s}. \alpha_1,\alpha_2,\alpha_3 - параметры сглаживания.

Модель Уинтерса с экспоненциальным трендом

Мультипликативная периодическая модель с экспоненциальным трендом \hat{y}_{t+h}=a_t(b_t)^h\cdot\theta_{t+(h \hbox{ }\rm{ mod }\hbox{ } s)-s}, где a_t(b_t)^h тренд, очищенный от периодических колебаний, \theta_0,...,\theta_{s-1}- периодический профиль периода s без глобального тренда.
Для получения коэффициентов используют реккурентные соотношения a_t=\alpha_1(y_t/\theta_{t-s})+(1-\alpha_1)a_{t-1}b_{t-1}, b_t=\alpha_2(a_t/a_{t-1})+(1-\alpha_2)b_{t-1}, \theta_t=\alpha_3(y_t/a_{t})+(1-\alpha_3)\theta_{t-s}. \alpha_1,\alpha_2,\alpha_3 - параметры сглаживания.

Адаптивная авторегрессионная модель.

Пусть \hat{y}_{t+1}(\omega)=\sum_{j=1}^n\omega_iy_{t-i+1}, и \varepsilon_t=y_t-\hat{y}_t - ошибка прогноза на шаге t.
Для нахождения весов используем метод наименьших квадратов \varepsilon^2_t\to \min_\omega. Применяя метод градиентного спуска, получаем для времени t \omega_j\to \omega_t+\epsilon_t\varepsilon_ty_{t-j+1}, где градиентный шаг \epsilon_t=\frac{\alpha}{\sum_{j=1}^ny^2_{t-j+1}}, и \alpha параметр сглаживания.

На данном графике представлена динамика экспоненциального скользящего среднего ошибок прогнозов для различных моделей объемов продаж. Достаточно тривиальной будет идея использования удачных моделей и при этом отбрасывать менее удачные.

Адаптивная селективная модель.

Пусть имеется k моделей прогнозирования,
\hat{y}_{j,t+h} - прогноз j-й модели на момент t+h,
\varepsilon_{j,t}=y_t-\hat{y}_{j,t} - ошибка прогноза j- й модели на шаге t,
\tilde{\varepsilon}_{j,t}=\gamma |\varepsilon_{j,t}|+(1-\gamma)\tilde{\varepsilon}_{j,t-1}- экспоненциальное скользящее среднее модуля ошибки.
Тогда лучшей моделью в момент времени t будет j^*_t=\arg\min_{j=1,...,k}\tilde{\varepsilon}_{j,t}. Адаптивная селективная модель реализует прогноз по лучшей модели \hat{y}_{j,t+h}\to \hat{y}_{j^*_t,t+h}. Эмпирическая рекомендация к выбору \gamma\in(0.01,0.1).

Адаптивная композиция моделей.

Пусть имеется k моделей прогнозирования,
\hat{y}_{j,t+h} - прогноз j-й модели на момент t+h,
\varepsilon_{j,t}=y_t-\hat{y}_{j,t} - ошибка прогноза j- й модели на шаге t,
\tilde{\varepsilon}_{j,t}=\gamma |\varepsilon_{j,t}|+(1-\gamma)\tilde{\varepsilon}_{j,t-1}- экспоненциальное скользящее среднее модуля ошибки.
Адаптивная композиция моделей опирается на их линейную комбинацию \hat{y}_{t+h}=\sum_{j=1}^n\omega_{j,t}\hat{y}_{j,t+h}, \sum_{j=1}^n\omega_{j,t}=1, \forall t и веса подбираются следующим образом \omega_{j,t}=\frac{\tilde{\varepsilon}_{j,t}^{-1}}{\sum_{\nu=1}^k\tilde{\varepsilon}_{\nu,t}^{-1}}. Требования к \gamma те же, что и в предыдущем случае.

Проверка адекватности и точности моделей.

Традиционно считается, что модель адекватна описываемому процессу, если ошибка (нерегулярный компонент) является случайной независимой величиной, которая подчиняется нормальному закону распределения.

Проверка гипотезы о независимости остатков. Критерий Дарбина-Уотсона.

Критерий Дарбина-Уотсона позволяет обнаружить автокорреляцию первого порядка - d=\frac{\sum_{i=2}^t(\varepsilon_i-\varepsilon_{i-1})}{\sum_{i=1}^t\varepsilon^2_i}\approx 2(1-r_1), где r_1 коэффициент автокорреляции первого порядка.
Если ряд остатков обладает сильной положительной автокорреляцией, то d\to 0, сильной отрицательной автокорреляцией - d \to 4. При отсутствии автокорреляции d\approx 2. Практическое применение этого критерия опирается на сравнение значений d с табулированными значениями
ПоказательМодель
a+bta+bt+ct^2y=ab^ty=c-ab^ty=\frac{c}{1+be^{-at}}y=ca^{b^t}
ЛинейнаяКвадратичнаяЭкспоненциальнаяМодифицированная экспонентаЛогистическаяКривая Гомперца
d_11.551.521.551.551.551.55
d_21.671.701.671.671.671.67
Если
  1. d\lt d_1, гипотеза о независимости случайных отклонений отвергается (положительная автокорреляция),
  2. d\gt d_2, гипотеза не отвергается,
  3. d_1\le d\le d_2, нет достаточных оснований для принятия решения (опять эта проклятая неопределенность!)
В случае, если полученное значение d\gt 2, то с табулированными значениями сравнивается не d, а 4-d.

Проверка гипотезы о подчиненности остатков нормальному закону распределения.

Для проверки гипотезы будем опираться на показатели ассиметрии и эксцесса. В случае наличия нормального распределения эти характеристики равны нулю.
Пусть Asymmetry=\frac{\frac{1}{t}\sum_{i=1}^t\varepsilon^4_i}{\sqrt{\left(\frac{1}{t}\sum_{i=1}^t\varepsilon^2_i\right)^3}}, Excess=\frac{\frac{1}{t}\sum_{i=1}^t\varepsilon^3_i}{\sqrt{\left(\frac{1}{t}\sum_{i=1}^t\varepsilon^2_i\right)^3}}-3. Если одновременно выполняются неравенства \left|Excess+\frac{6}{n+1}\right|\lt 1.5\cdot\sqrt{\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)}}; \left|Asymmetry\right|\lt 1.5\cdot\sqrt{\frac{6(n-2)}{(n+1)(n+3)}}, то гипотеза о нормальном характере распределения случайной компоненты не отвергается.