Пусть \(y (t)\) является стационарным стохастическим процессом с матожиданием \(E\{y(t)\}=0\).
Требуется на основе наблюдаемой истории \(I_t=\{y_t,y_{t-1},...,y_{t-p}\}\) временного ряда предсказать значения \(\hat{y}\) этого процесса на несколько отсчетов в будущем.
Предсказание (прогноз) на \(h\) шагов вперед \(\hat{y}_{t+h}\), сделанное в момент \(t\) обозначим через \(\hat{y}_{t+h|t}\).
Критерием оценки эффективности прогноза \(\hat{y}\) случайной величины \(y\), будет среднеквадратическая ошибка \(E\{(y-\hat{y})^2\}\).
Заметим, что если \(y\) статистически связано с другой случайной величиной \(x\), значение которой наблюдаемо, и если совместное
распределение \(x\) и \(y\) известно, то предсказание \(y\) с минимальной квадратичной погрешностью будет условным ожиданием \(E\{y|x\}\).
Это утверждение можно формализовать следующим образом:
Пусть \(\hat{y} = \hat{y}(x)\) - условное математическое ожидание \(y\), по заданному \(x\), то есть \(\hat{y}=E\{y|x\}\), тогда
\[
E\{(y-\hat{y})^2\}\le E\{(y-f)^2\},
\]
где \(f=f(x)\) - любая функция от \(x\).
Это предложение легко обобщается на тот случай, когда нужно получить предсказание величины \(t_{t+h}\) по информации \(\{y_t,y_{t-1},...,y_{t-p}\}\),
тогда прогнозом будет величина \(E\{y_{t+h}|y_t,y_{t-1},...,y_{t-p}\}\).
Проблема состоит в том, что для нахождения этой величины нужно знать функции плотности вероятностей всех этих переменных.
Если такой возможности нет, а это практически всегда, то просто от безысходности предполагают, что распределение является нормальным.
В этом случае следует, что условное ожидание \(y_{t+h}\) является линейной функцией от \(\{y_t,y_{t-1},...,y_{t-p}\}\), и поэтому задача
нахождения предсказания \(y_{t + h}\) становится вопросом построения линейной регрессии (
подробнее)
\[
\hat{y}_{t+h}=a_1y_t+a_2y_{t-1}+...+a_{p+1}y_{t-p}=y_{t+h}+\varepsilon_{t+h}
\]
с минимизацией величины
\[
E\{(y_{t+h}-\hat{y}_{t+h})^2\}=E\left\{\left(y_{t+h}-\sum_{j=1}^{p+1}a_jy_{t-j+1}\right)^2\right\}=
b_0-2\sum_{j=1}^{p+1}a_jb_{h+j-1}+\sum_{i=1}^{p+1}\sum_{j=1}^{p+1}a_ia_jb_{i-j},
\]
где \(b_{i-j}=E\{\varepsilon_{t-i}\varepsilon_{t-j}\}.\)
Решение этой задачи сводится к набору \(p + 1\) условий ортогональности
\[
E\{(y_{t+h}-\hat{y}_{t+h})y_{t-j+1}\}= b_{h+j-1}-\sum_{j=1}^{p}a_jb_{i-j}=0,j=0,1,...,p+1.
\]
В матричном виде получаем
\begin{equation}\label{7.8}
\left(
\begin{array}{cccc}
b_0 & b_1 & \cdots & b_p \\
b_1 & b0 & \cdots & b_{p-1} \\
\vdots & \vdots &\ddots & \vdots \\
b_p & b_{p-1} & \cdots & b_0 \\
\end{array}
\right)
\left(
\begin{array}{c}
a_1\\
a_2 \\
\vdots \\
a_{p+1} \\
\end{array}
\right)=
\left(
\begin{array}{c}
b_h\\
b_{h+1} \\
\vdots \\
b_{h+p} \\
\end{array}
\right).
\end{equation}
Заметим, что для одношагового предсказания \(y_{t + 1}\) это не что иное, как уравнения Юла-Уокера (Yule-Walker).
Заметим, что в случае оптимального предсказания, который использует предыдущие значения ряда, из принципа ортогональности следует, что ошибки
прогноза некоррелированы с предыдущими предсказаниями.
Результат такого рода хорошо известен экономистам в связи с гипотезой «электронного капитала».
Согласно этой гипотезе, изменения цен на активы будут несопоставимы с прошлым или
нынешним уровнем цен, цены на активы будут следовать случайным блужданиям. Таким образом, использование для оценки только прошлой истории цен на
активы, не дает возможность
на регулярной основе предоставлять спекулятивные услуги.
Построенная модель называется авторегрессионой.
Если ввести лаговый (оператор запаздывания) оператор \( L:Ly_{t}=y_{t-1}\),
то авторегрессионную модель можно представить следующим образом
\[
y_{t+h}=\sum _{i=1}^{p+1}a_{j}L^{j-1}y_{t}+\varepsilon _{t+h}\]
или
\begin{equation}\label{AR}
a(L)y_t=\left(1-\sum _{i=1}^{p+1}a_{j}L^{j-1}\right)y_t=\varepsilon _{t+h}.
\end{equation}
Модель авторегрессии — скользящего среднего (англ. autoregressive moving-average model, ARMA) — одна из наиболее популярных математических моделей,
используемых для анализа и прогнозирования стационарных временных рядов.
Модель ARMA обобщает две более простые модели временных рядов — модель авторегрессии (AR) и модель скользящего среднего (MA).
До сих пор мы избегали делать предположения о характере процесса \(y (t)\). Понятно, что любая информация о процессе помогает в разработке
практических методов прогнозирования. Далее будем предполагать, что \(y (t)\) порождается процессом ARMA, тогда из (\ref{AR})
\begin{equation}\label{ARMA}
y(t)=\psi(L)\varepsilon(t).
\end{equation}
Кроме того, будем считать, что прогнозы основаны на информации, содержащейся в бесконечном множестве \(I_t=\{y_t,y_{t-1},...\}\).
Таким образом прогноз содержит все значения, которые принимались переменной до настоящего времени \(t\).
Тогда
\begin{equation}\label{7.10}
y_{t+h}=\{\psi_0\varepsilon_{t+h}+\psi_1\varepsilon_{t+h-1}+...+\psi_{h-1}\varepsilon_{t+1}\}+\{\psi_h\varepsilon_{t}+\psi_{h+1}\varepsilon_{t-1}+...\}.
\end{equation}
Здесь первое слагаемое отражает изменения, которые могут произойти от настоящего времени до времени прогноза, а второе -
изменения, которые лежат в информационном множестве \(I_t=\{y_t,y_{t-1},...\}\). Выпишем прогноз на основе имеющейся информации
\begin{equation}\label{7.11}
\hat{y}_{t+h|t}=\rho_h\varepsilon_{t}+\rho_{h+1}\varepsilon_{t-1}+...
\end{equation}
где \(\varepsilon(t)\) процесс белого шума.
Для получения прогноза на \(h\) шагов вперед нужно минимизировать величину
\begin{equation}\label{7.12}
E\{(y_{t+h}-\hat{y}_{t+h})^2\}=\sigma^2_\varepsilon\sum_{i=0}^{h-1}\psi^2_i+\sigma^2_\varepsilon\sum_{i=h}^\infty(\psi_i-\rho_i)^2.
\end{equation}
Очевидно, что минимум достигается при \(\rho_i=\psi_i\) и соответствующий прогноз будет иметь вид
\begin{equation}\label{7.13}
\hat{y}_{t+h|t}=\psi_h\varepsilon_{t}+\psi_{h+1}\varepsilon_{t-1}+...
\end{equation}
Это могло быть получено из уравнения (\ref{7.10}) просто заменой значений, которые лежат в будущем (от настоящего времени \(t\) до \(t+h\)), нулями.
Заметим, что если процесс является стационарным, среднеквадратичная ошибка прогноза стремится к значению
\[
V\{y(t)\}=\sigma^2_\varepsilon\sum\psi^2_i
\]
с увеличением шага \(h\) прогнозируемой величины. Другими словами, это не что иное как дисперсия процесса \(y (t)\).
Оптимальный прогноз можно получить, заметив, что ошибка прогноза должна быть некоррелирована с возмущениями до момента составления
прогноза.
Чтобы продемонстрировать этот результат, рассмотрим ковариацию между ошибкой прогноза и возмущением \(\varepsilon_{t-i}\)
\begin{equation}\label{7.15}
E\{(y_{t+h}-\hat{y}_{t+h})\varepsilon_{t-i}\}=\sum_{k=1}^{h}\psi_{h-k}E\{\varepsilon_{t+k}\varepsilon_{t-i}\}+
\sum_{j=0}^\infty(\psi_{h+j}-\rho_{h+j})E\{\varepsilon_{t-j}\varepsilon_{t-i}\}
=\sigma^2_\varepsilon(\psi_{h+i}-\rho_{h+i}),
\end{equation}
где
\[
E\{\varepsilon_{t-j}\varepsilon_{t-i}\}=
\left\{
\begin{array}{ll}
\sigma^2_\varepsilon, & \hbox{ если }i=j, \\
0, & \hbox{ если }i\ne j.
\end{array}
\right.
\]
Если ковариация (\ref{7.15}) равна нулю для всех значений \(i\ge 0\), то \(\rho_i=\psi_i\) для всех \(i\), то есть, функция
прогнозирования должна быть такой, как была определена в (\ref{7.13}).
Иногда полезно иметь нотацию для описания процесса, который генерирует прогноз на h-шагов вперед.
Для анализа временных рядов широко используются обозначения, приведенные Уиттлом (Whittle), рассмотрим их.
Пусть
\begin{equation}\label{7.17}
y(t+h)=\{L^{-h}\psi(L)\}\varepsilon(t),
\end{equation}
где присутствуют не только последовательность с запаздыванием \(\{\varepsilon(t),\varepsilon(t-1),...\}\), но и с опережением
\(\varepsilon(t+h)=L^{-h}\varepsilon(t),...,\varepsilon(t+1)=L^{-1}\varepsilon(t),\) которые связаны с отрицательными степенями L для сдвига
последовательности вперед во времени.
Пусть \(\{L^{-h}\psi(L)\}_+\) определена как часть оператора, содержащего только неотрицательные степени \(L\). Тогда, используя (\ref{ARMA}),
получаем, что функцию прогнозирования можно выразить следующим образом
\[
\hat{y}(t+h|t)=\{L^{-h}\psi(L)\}_+\varepsilon(t)=\left\{\frac{\psi(L)}{L^h}\right\}_+\frac{1}{\psi(L)}y(t).
\]
Пример. Рассмотрим процесс ARMA, представленный уравнением
\[
(1-\alpha L)y(t)=(1-\beta L)\varepsilon(t).
\]
В этом случае функция, генерирующая последовательность прогнозов с шагом \(h\) будет иметь вид
\[
\hat{y}(t+h|t)=\left\{L^{-h}\left(1+\frac{(\alpha-\beta)L}{1-\alpha L}\right)\right\}_+\varepsilon(t)=
\alpha^{h-1}\frac{\alpha-\beta}{1-\alpha L}\varepsilon(t)=
\alpha^{h-1}\frac{\alpha-\beta}{1-\beta L}y(t).
\]
В частности, при \(\beta=0\) получаем \(\hat{y}(t+h|t)=\alpha^hy(t).\)
Рекурсивная генерация прогнозов.
Как уже было отмечено ранее, оптимальный (с точки зрения минимизации среднеквадратической ошибки) прогноз \(y_{t + h}\) можно рассматривать как
условное ожидание \(y_{t + h}\), заданное на информационном множестве \(I\), которое равно \(\{y_t,y_{t-1},...\}\), то есть, содержит значения \(\{\varepsilon_t,\varepsilon_{t-1},...\}\).
Тогда
\[
\begin{array}{ll}
E\{y_{t+k}|I_t\}=\hat{y}_{t+k|t}, & \hbox{ если }k>0, \\
E\{y_{t-j}|I_t\}=\hat{y}_{t-j}, & \hbox{ если }j\ge 0, \\
E\{\varepsilon_{t+k}|I_t\}=0, & \hbox{ если }k>0, \\
E\{\varepsilon_{t-j}|I_t\}=\varepsilon_{t-j}, & \hbox{ если }j\ge 0. \\
\end{array}
\]
Следовательно,
\[
E\{y_{t+k}|I_t\}=\sum_{k=1}^h\psi_{h-k}E\{\varepsilon_{t+k}|I_t\}+\sum_{j=0}^\infty \psi_{h+j}E\{\varepsilon_{t-j}|I_t\}=
\sum_{j=0}^\infty \psi_{h+j}\varepsilon_{t-j}.
\]
На практике для поиска прогноза используется рекурсивное соотношение, основанное на уравнении
\begin{equation}\label{7.23}
y(t)=-\{a_1y(t-1)+a_2y(t-2)+...+a_py(t-p)\}+
\mu_0\varepsilon(t)+\mu_1\varepsilon(t-1)+...+\mu_q\varepsilon(t-q).
\end{equation}
Используя найденные на предыдущем шаге значения, получаем
\begin{equation}\label{7.26}
\begin{array}{ll}
\hat{y}_{t+h}=-\{a_1\hat{y}_{t+h-1}+...+a_py_{t+h-p}\}+
\mu_h\varepsilon_t+...+\mu_q\varepsilon_{t+h-q}, & \hbox{ если }0\lt h\le p,q, \\
\hat{y}_{t+h}=-\{a_1\hat{y}_{t+h-1}+...+a_py_{t+h-p}\}, & \hbox{ если } q\lt h\le p, \\
\hat{y}_{t+h}=-\{a_1\hat{y}_{t+h-1}+...+a_p\hat{y}_{t+h-p}\}+
\mu_h\varepsilon_t+...+\mu_q\varepsilon_{t+h-q}, & \hbox{ если }p\lt h\le q, \\
\hat{y}_{t+h}=-\{a_1\hat{y}_{t+h-1}+...+a_p\hat{y}_{t+h-p}\},& \hbox{ если } p,q\lt h.
\end{array}
\end{equation}
Таким образом, \(y (t)\) на p-м шаге используют значения от \(t = r = max (p; q)\) до \(t = r -p + 1\).
Вычисляя на каждом шаге новые значения \(\psi(L)=\mu(L)/\alpha(L)\), используя (\ref{7.13}), получаем
\begin{equation}\label{7.28}
\begin{array}{ll}
\hat{y}_{t+h|t+1}=\{\psi_{h-1}\varepsilon_{t+1}+\psi_{h}\varepsilon_{t}+\psi_{h+1}\varepsilon_{t-1}+...\}, \\
\hat{y}_{t+h|t}=\{\psi_{h}\varepsilon_{t}+\psi_{h+1}\varepsilon_{t-1}+\psi_{h+2}\varepsilon_{t-2}+...\}.
\end{array}
\end{equation}
В первом cлучае получаем прогноз на шаг \(h-1\), сделанный в момент времени \(t + 1\), второй - прогноз на \(h\), сделанный в момент
времени \(t\). Ясно, что
\[
\hat{y}_{t+h|t+1}=\hat{y}_{t+h|t}+\psi_{h-1}\varepsilon_{t+1},
\]
где \(\varepsilon_{t+1}=y_{t+1}-\hat{y}_{t+1}\) - текущее возмущение в момент времени \(t + 1\) или, что то же,
ошибка прогноза на один шаг вперед, сделанного во время \(t\).
Пример. Рассмотрим процесс интегрированной авторегрессии (IAR),
\[
\{1-(1+\phi)L+\phi L^2\}y(t)=\varepsilon(t),
\]
где \(\phi\in (0,1).\)
Нетрудно видеть, что корни вспомогательного уравнения \(z^2-(1+\phi)z+\phi=0\) равны \(z = 1\) и \(z = \phi\).
Решение однородного разностного уравнения
\[
\{1-(1+\phi)L+\phi L^2\}\hat{y}(t+h|t)=0
\]
приводит к прогнозу
\[
\hat{y}(t+h|t)=c_1+c_2\phi^h,
\]
где \(c_1\) и \(c_2\) - некоторые константы. Найдем эти константы, используя начальные условия
\[
y_{t-1}=c_1+c_2\phi^{-1}, y_{t}=c_1+c_2.
\]
Отсюда
\[
c_1=\frac{y_t-\phi y_{t-1}}{1-\phi},
c_2=\frac{\phi}{\phi-1}(y_t-y_{t-1}).
\]
Ясно что \(Y=c_1\) является асимптотой при увеличении \(h\), то есть это долговременный прогноз.
Существуют некоторые, проверенные временем, методы прогнозирования, которые, при тщательном анализе, показывают, что они подходят для
многих моделей ARIMA.
Среди них наиболее часто используемыми являются метод экспоненциального сглаживания и метод тренд-экстраполяции Холта-Уинтерса (Holt-Winters).
Экспоненциальное сглаживание.
Наиболее общей процедурой прогнозирования является экспоненциальное сглаживание.
В этом случае прогноз зависит от взвешенного среднего значения прошлых значений временного ряда со степенными весами. Так для одного шага вперед
прогноз можно записать в виде
\begin{equation}\label{7.35}
\hat{y}(t+1|t)=\frac{1-\theta}{1-\theta L}y(t)=(1-\theta)\{y(t)+\theta y(t-1)+\theta^2 y(t-2)+...\}.
\end{equation}
Умножая обе части на \(1-\theta L\), получаем
\[
\hat{y}(t+1|t)=\theta \hat{y}(t|t-1)+(1-\theta)y(t),
\]
что текущий прогноз на один шаг вперед представляет собой выпуклую комбинацию предыдущего прогноза и фактического состояния.
Рассмотрим модель ARMA (1; 1)
\[
y(t)-\phi y(t-1)=\varepsilon(t)-\theta \varepsilon(t-1).
\]
Отсюда имеем
\[
\hat{y}(t+1|t)=\phi y(t)-\theta \varepsilon(t)=\phi y(t)-\theta\frac{1-\phi L}{1-\theta L}y(t)=
\frac{(1-\theta L)\phi-(1-\phi L)\theta}{1-\theta L}y(t)=\frac{\phi-\theta}{1-\theta L}y(t).
\]
При \(\phi = 1\), получаем преобразование модели ARMA (1; 1) в модель IMA (1; 1) (Integrated Moving Average), и, соответственно, функцию прогноза (\ref{7.35}).
Метод Хольта-Уинтерса (The Holt-Winters Method)
В 1957 году профессор Чарльз Хольт опубликовал статью «Прогнозирование тенденций и сезонных колебаний по экспоненциально взвешенным скользящим
средним» (Office of Naval Research Research Memorandum No. 52, Carnegie Institute of Technology).
Три года спустя, в 1960 году, ученик Хольта Питер Р. Уинтерс улучшил алгоритм, добавив сезонность. На данный момент подход, предложенный в этом методе является одним
из наиболее популярных среди методов прогнозирования.
Алгоритм Хольта-Уинтерса полезен при локализации линейных трендов, в этом случае для получения прогноза используется соотношение
\begin{equation}\label{7.38}
\hat{y}_{t+h|t}=\alpha_t+\beta_t h,
\end{equation}
где
\[
\alpha_t=\lambda y_t+(1-\lambda)(\alpha_{t-1}+\beta_{t-1})=\lambda y_t+(1-\lambda)\hat{y}_{t|t-1}
\]
\[
\beta_t=\mu(\alpha_t-\alpha_{t-1})+(1-\mu)\beta_{t-1},
\]
параметры, формируемые в момент времени \(t\), а \(\lambda,\mu\in (0,1] -\) параметры сглаживания.
Суть алгоритма состоит в последовательной корректировке ошибки
\[
e_t=y_t-\hat{y}_{t|t-1}=y_t-\alpha_{t-1}-\beta_{t-1}
\]
восстановления значения в момент \(t\) по информации на предыдущем шаге. Тогда на этом шаге имеем
\[
\alpha_t=\lambda e_t+\hat{y}_{t|t-1}=\lambda e_t+\alpha_{t-1}+\beta_{t-1},
\]
и, соответственно,
\[
\alpha_t-\alpha_{t-1}=\lambda e_t+\beta_{t-1}.
\]
Используя соотношение для \(\beta_t\), получаем
\[
\beta_t=\mu(\lambda e_t+\beta_{t-1})+(1-\mu) \beta_{t-1}=\lambda \mu e_t+\beta_{t-1}.
\]
Соотношение для параметров линейной модели ('\ref{7.38}) можно записать в матричном виде
\[
\left[
\begin{array}{l}
\alpha(t) \\
\beta(t)
\end{array}
\right]=
\left[
\begin{array}{cc}
1&1 \\
0&1
\end{array}
\right]
\left[
\begin{array}{l}
\alpha(t-1) \\
\beta(t-1)
\end{array}
\right]+
\left[
\begin{array}{l}
\lambda \\
\lambda \mu
\end{array}
\right]e(t).
\]
Отсюда имеем
\[
\left[
\begin{array}{cc}
1-L&-L \\
0&1-L
\end{array}
\right]
\left[
\begin{array}{l}
\alpha(t) \\
\beta(t)
\end{array}
\right]=
\left[
\begin{array}{l}
\lambda \\
\lambda \mu
\end{array}
\right]e(t)
\]
и коэффициенты искомой модели находятся следующим образом
\[
\left[
\begin{array}{l}
\alpha(t) \\
\beta(t)
\end{array}
\right]=\frac{1}{(1-L)^2}
\left[
\begin{array}{cc}
1-L&L \\
0&1-L
\end{array}
\right]
\left[
\begin{array}{l}
\lambda \\
\lambda \mu
\end{array}
\right]e(t).
\]
Отсюда и из (\ref{7.38}) получаем
\[
\hat{y}(t+1|t)=\alpha(t)+\beta(t)=\frac{(\lambda+\lambda\mu)e(t)+\lambda e (t-1)}{(1-L)^2},
\]
что соответствует функции прогноза модели IMA(2,2)
\[
(I-L)^2y(t)=\mu_0\varepsilon(t)+\mu_1\varepsilon(t-1)+\mu_2\varepsilon(t-2)
\]
для которой
\[
\hat{y}(t+1|t)=\alpha(t)+\beta(t)=\frac{\mu_1\varepsilon(t)+\mu_2\varepsilon(t-1)}{(1-L)^2}.
\]
Модель локального тренда
Существует гипотеза, что модель IMA (2, 2) может быть естественной моделью для построения поведения временного ряда.
Приведем простую иллюстрация этого утверждения при предположении, что возмущение тренда описывается случайным блужданием второго порядка.
Данная модель может быть описана уравнениями
\[
(I-L)^2\xi(t)=\nu(t),
y(t)=\xi(t)+\eta(t),
\]
где \(\nu(t)\) и \(\eta(t)\) независимые переменные процесса белого шума. Комбинируя эти уравнения и полагая \(\nabla=1-L\), получаем
\[
y(t)=\frac{\nu(t)}{\nabla^2}+\eta(t)=\frac{\nu(t)+\nabla^2\eta(t)}{\nabla^2}.
\]
Здесь числитель
\[
\nu(t)+\nabla^2\eta(t)=\{\nu(t)+\eta(t)\}-2\eta(t-1)+\eta(t-2)
\]
представляет собой MA-процесс второго порядка.
Так называемая структурная модель имеет вид
\[
y(t)=\mu(t)+\varepsilon(t),
\]
\[
\mu(t)=\mu(t-1)+\beta(t-1)+\eta(t),
\]
\[
\beta(t)=\beta(t-1)+\xi(t).
\]
Можно рассмотреть более сложные процессы, например, такого рода
\[
\beta(t)=\frac{\zeta(t)}{\nabla},
\mu(t)=\frac{\beta(t-1)}{\nabla}+\frac{\eta(t)}{\nabla}=\frac{\zeta(t-1)}{\nabla^2}+\frac{\eta(t)}{\nabla},
y(t)=\frac{\zeta(t-1)}{\nabla^2}+\frac{\eta(t)}{\nabla}+\varepsilon(t)=
\frac{\zeta(t-1)+\nabla\eta(t)+\nabla^2\varepsilon(t)}{\nabla^2}.
\]
И в этом случае числитель представляет собой MA-процесс (Moving Average) второго порядка.
Рассмотрим модель, которая объединяет глобальный линейный тренд с процессом авторегрессивного возмущения:
\begin{equation}\label{7.55}
y(t)=\gamma_0+\gamma_1t+\frac{\varepsilon(t)}{I-\phi L}.
\end{equation}
Для формирования предсказания h-го шага можем разделить функцию прогноза на две аддитивные части, первой из которых является
экстраполяция глобального линейного тренда
\[
z_{t+h|t}=\gamma_0+\gamma_1(t+h)=z_t+\gamma_1 h,
\]
где \(z_t=\gamma_0+\gamma_1t\).
Вторая часть представляет собой процесс AR(1), связанный с возмущением \(\eta(t)=(I-\phi L)^{-1}\varepsilon(t)\).
Следующая итерационная схема дает рекуррентное решение проблемы генерации прогнозов:
\[
\begin{array}{l}
\hat{\eta}_{t+1|t}=\phi \eta_t, \\
\hat{\eta}_{t+2|t}=\phi\hat{\eta}_{t+1|t}, \\
\hat{\eta}_{t+2|t}=\phi \hat{\eta}_{t+2|t},...
\end{array}
\]
или, что то же,
\[
\hat{\eta}_{t+h|t}=\phi^h \eta_{t}.
\]
Таким образом, если \(|\phi|\lt 1\), то получаем прогноз
\[
\hat{y}_{t+h|t}=z_{t+h|t}+\hat{\eta}_{t+h|t}.
\]
Рассмотрим предельный случай \(\phi\to 1.\) Тогда вместо авторегрессионной модели нужно рассмотреть случайного блуждания.
Перепишем уравнение (\ref{7.55}) в виде
\[
(I-\phi L)\{y(t)-\gamma_0-\gamma_1 t\}=\varepsilon(t).
\]
Значение \(\phi=1\) обращает оператор \(I -\phi L\) в разностный оператор (оператор дифференцирования) \(I-L = \nabla\).
Но \(\nabla \gamma_0=0\) и \(\nabla \gamma_1 t=\gamma_1\), поэтому это уравнение может быть записано в виде
\[
\nabla y(t)=\gamma_1+\varepsilon(t).
\]
Рассмотрим еще один способ описания процесса
\[
y(t)=y(t-1)+\gamma_1+\varepsilon(t).\]
Интуитивно ясно, что если случайный блуждающий процесс \(\nabla z(t)=\varepsilon(t)\) связан с константой функции прогноза и
\(z(t)=y(t)-\gamma_0-\gamma_1 t,\)
то \(y(t)\) будет ассоциированться с линейной функцией прогноза.