Time series

Временной ряд – это совокупность наблюдений какого-либо показателя \(Y_t=\{y_{t_0},..., y_{t_{T-1}}\}\) за несколько последовательных моментов или периодов времени.
Традиционно временные ряды раскладываются на множество компонентов, некоторые из которых могут отсутствовать в том или ином конкретном случае. Cреди этих компонентов наиболее часто используемыми являются - Таким образом, пусть \(\{Y_t\}\) - последовательность наблюдений, которые можно записать в следующем виде \begin{equation}\label{1.1} Y_t = T_t + C_t + S_t + \varepsilon_t, \end{equation} где
  1. \(T_t\) - глобальный тренд,
  2. \(C_t\) - цикличный компонент,
  3. \(S_t\) - сезонная составляющая,
  4. а \(\varepsilon_t\) - нерегулярный компонент.
Такое представление называется аддитивной моделью. В случае, если \[ Y_t = T_t \cdot C_t \cdot S_t \cdot \varepsilon_t, \] модель называется мультипликативной.
Заметим, что мультипликативная модель сводится к аддитивной логарифмированием, поэтому нет необходимости рассмотривать отдельно обе модели, достаточно исследовать только первый случай.
Анализ временных рядов преследует две цели
  1. Первая цель - дать описание основных компонентов временных рядов. Достаточно часто нерегулярные и циклические (сезонные) компоненты временного ряда, скрывают те фундаментальные причины, которые породили именно такой данный ряд, поэтому очистка данных, позволяющая выделить тренд (тенденцию), может помочь в понимании исследуемого процесса.
  2. Другая цель разложения временного ряда - предсказать его будущие значения. Для каждого компонента временного рядов существует свой подходящий конкретный метод прогнозирования. Объединив все эти отдельные предсказания компонентов, можно получить прогноз, который по качеству будет превосходить прогноз, полученный для каждой компоненты в отдельности.
Под детерминированной (закономерной) составляющей временного ряда понимается числовая последовательность \(d_{t_0},..., d_{t_{T-1}}\), элементы которой вычисляются по определенному правилу как функция времени \(t\).
Если исключить из ряда детерминированную составляющую, то оставшаяся часть будет выглядеть хаотично. Ее называют случайной компонентой \(\varepsilon_{t_0},..., \varepsilon_{t_{T-1}}\). Таким образом, \(d_{t}=T_{t} + C_{t} + S_{t}\).
При написании данной части использованы примеры из книги D.S.G. Pollock.

Тренды временных рядов

Существует два основных способа извлечения трендов из временных рядов, первым из которых является применение к ряду разнообразных методов, которые аннулируют (или хотя бы уменьшают влияние) все компоненты, которые не рассматриваются как тенденции. Часто для такой цели используют скользящую среднюю, которая охватывает несколько точек данных и придает свой вес каждому значению в них. При этом сумма весов должна быть равна единице - \[ y_{t,k}=\frac{\sum_{i=1-k}^{k-1}(k-|i|)y_{t+i}}{\sum_{i=1-k}^{k-1}(k-|i|)} (k=1,2,...). \] В частности, если есть данные, которые регистрируют ежеквартальные показатели, то для устранения годового цикла можно использовать соотношение \[ y_{t,4}=\frac{\sum_{i=-3}^{3}(4-|i|)Y_{t+i}}{16}=\frac{1}{16}(y_{t-3}+2y_{t-2}+3y_{t-1}+4y_{t}+3y_{t+1}+2y_{t+2}+y_{t+3}). \] Если исследуемый ряд не завязан на известные и критические календарные или временные изменения, то для этой цели можно использовать методы сглаживания данных, подробно рассмотренные в разделе, посвященном предобработке данных.
Для того, чтобы принять решение о необходимости сглаживания данных, нужно иметь веские основания, потому что сглаживание представляет собой положительный оператор и его использование приводит к безвозвратно теряемой части информации. Одним из таких характеристик является критерий Ирвина. Согласно этому критерию значение временного ряда является аномальным, если его отличие от предыдущего больше среднеквадратичного отклонения, то есть если \[ \lambda_i=\frac{|y_t-y_{t-1}|}{\sigma}, \sigma=\sqrt{\frac{\sum_{t=0}^{T-1}\left(y_t-\frac{1}{T}\sum_{\tau=0}^{T-1}y_\tau\right)^2}{T-1}}, \] то при \(\lambda_i\gt \Lambda\) точка будет аномальной и

T102030501002005001000
Λ (α=0.05) 1.461.271.201.111.020.950.870.83
Λ (α=0.01) 2.031.81.701.601.471.381.281.22
Для расчета критических значений критерия Ирвина, с учетом уровня ошибки α, можно использовать следующие соотношения

α Λтабл
0,01 -205,06T-3 + 424,26T-2,5 - 352,483T-2 +143,747T-1,5 - 33,401T-1+6,381T-0,5 + 1,049
0,05 -229,21T-3 + 422,39T-2,5 - 320,96T-2 +124,594T-1,5 - 26,15T-1+4,799T-0,5 + 0,7029
0,1 -132,78T-3 + 224,24T-2,5 - 165,27T-2 +68,614T-1,5 - 16,109T-1+3,693T-0,5 + 0,549

Альтернативный способ извлечения тренда из имеющихся данных состоит в использовании некоторой функции, которая способна адаптироваться к форме тренда анализируемого ряда.
Основой этого метода является теорема, доказанная Карлом Вейерштрассом в 1885 году, которая утверждает, что для непрерывных на отрезке вещественной прямой функций, существует возможность их равномерно приблизить последовательностью многочленов, хотя, следовало бы больше сослаться на теорему Вейерштрасса — Стоуна, но ее утверждение выходит за рамки нашего обзора.
Таким образом, для выделения тренда подходят дифференцируемые функции. Более того, как только получим функцию, описывающую тенденции временного ряда, ее можно использовать для экстраполяции, то есть, для получения прогноза.
Самым популярным средством моделирования тренда, является алгебраический полином r-й степени (см. теорему Вейерштрасса), аргументом которого является индекс t: \[ p(t) =a_0 + a_1t + ... +a_r t^r \] для распространенных случаев По сути, это есть описание данных усеченным рядом Тейлора.
Особенностью полиномиальной функции является тот факт, что ее ветви достаточно быстро стремятся к бесконечности, что нежелательно для функции, которая должна использоваться в экстраполяционном прогнозировании. Именно поэтому степень используемых полиномов невелика, как правило, ограничена тройкой.
Подробно задача моделирования тренда полиномиальными и некоторыми другими дифференцируемыми функциями рассмотрена в разделе, посвященном методу наименьших квадратов.
В разного рода экономических задачах широко используются логистические модели. Истоки этой модели лежат в моделировании роста популяции животных в среде с ограниченными продовольственными ресурсами. Нетрудно видеть обобщение на случай продаж и других задач, связанных с органиченностью ресурсной базы.

 
Логистическая функция \(\frac{e^x}{1+e^x}\) и ее производная.

Подробно задача построения логистической и экспоненциальной модели рассмотрена в разделе, посвященном методу наименьших квадратов.
Выбор функции, аппроксимирующей тренд, как правило, диктуется физической или экономической природой исследуемого процесса. В случае, если такой информации нет, существуют две крайности - первая из которых состоит в использовании линейной зависимости (делаем хоть как-то), вторая, в использовании аппарата, позволяющего описать достаточно сложные непрерывные процессы - полиномиальные сплайны, что подробно раcсмотрено в разделе, посвященном сплайн-регрессионным моделям.
И все же, как выбрать модель тренда, если нет никакой дополнительной информации о его природе. Можно использовать эмпирический подход.
Например, можно построить некие характеризующие данные, по поведению которых можно установить модель тренда исходных данных. Идея состоит в том, что достаточно просто получить линейную регрессию и оценить качество полученной аппроксимации и по полученным характеристикам установить какой-же тренд нужно получить.
Положим \(\Delta y_t=\frac{y_{t+1}-y_{t-1}}{2}\) - первая разность и \(\Delta^2 y_t=\frac{\Delta y_{t+1}-\Delta y_{t-1}}{2}\) - вторая разность.
Пусть
Характеризующие данныеРегрессия характеризующих данныхРегрессия исходных данных
ΔytПостояннаяЛинейная регрессия
ΔytЛинейная регрессияПараболическая регрессия
Δ2ytПостояннаяКубическая регрессия
Δyt/ytПостояннаяЭкспоненциальная регрессия
lnΔyt/y2tЛинейная регрессияЛогистическая регрессия

Предложенные модели тренда определяются исходя из гипотезы, что эти тренды существуют. Как проверить так ли это? Для этого существует несколько подходов, рассмотрим наиболее популярные из них.

Критерий Неймана.

Этот простой критерий основан на вариации последовательных по времени значений выборки, которые принадлежат к нормально распределенной генеральной совокупности и базируется на дисперсии и среднем квадрате разностей \[ \sigma^2=\frac{1}{T-1}\sum_{t=0}^{T-1}(y_t-\bar{y})^2, \bar{y}=\frac{1}{T-1}\sum_{t=0}^{T-1}y_t, \Delta^2=\frac{1}{T-1}\sum_{t=0}^{T-2}(y_t-y_{t+1})^2. \] В основе критерия лежит нуль-гипотеза о том, что последовательные значения тренда независимы, которой противостоит альтернативная гипотеза - значения взаимосвязаны и, как следствие, существует тренд. Альтернативная гипотеза принимается в случае, если выполняется условие \[ \gamma=\frac{\Delta^2}{\sigma^2}=\frac{\sum_{t=0}^{T-2}(y_t-y_{t+1})^2}{\sum_{t=0}^{T-1}(y_t-\bar{y})^2}\le \gamma_\alpha(T), \] где \(\alpha-\) уровень значимости и значение правой части затабулировано. Для \(\alpha=0.05\) эти значения равны

T

\(\gamma_{0.05}(T)\)

T

\(\gamma_{0.05}(T)\)

T

\(\gamma_{0.05}(T)\)

T

\(\gamma_{0.05}(T)\)

4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

0.781
0.820
0.890
0.936
0.983
1.024
1.062
1.097
1.128
1.156
1.183
1.205
1.227
1.247
1.266

19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

1.283
1.300
1.315
1.329
1.343
1.355
1.367
1.379
1.389
1.399
1.409
1.418
1.427
1.435
1.443

34
35
36
37
38
39
40
41
42
43
44
45
46
47
48

1.451
1.459
1.466
1.473
1.479
1.486
1.492
1.498
1.504
1.510
1.515
1.521
1.526
1.531
1.535

49
50
51
52
53
54
55
56
57
58
59
60
\(\infty\)

1.540
1.544
1.548
1.552
1.556
1.560
1.563
1.567
1.571
1.574
1.578
1.581
2.000

Рассмотрим пример.
Пусть есть данные результатов деятельности предприятия
Среднее значение доли рынка равно , дисперсия равна и среднее значение квадрата разностей .

Тогда
Рассмотрим колебания цен.

Среднее значение цены равно , дисперсия равна и среднее значение квадрата разностей . Тогда

Фазо-частотный критерий Уоллиса и Мура.

Этот критерий, в отличие от критерия Неймана, не зависит от распределения \(y_t\). Суть его состоит в выявлении отличия ряда от чисто случайной последовательности. Если значения временного ряда образуют случайную последовательность, то \(\textrm{sign}(y_{t+1}-y_t)\) представляет собой случайную величину. В этом суть нуль-гипотезы. Альтернативная гипотеза - последовательность знаков (+ и -) значимо отличается от случайной. Последовательность одинаковых знаков называется "фазой". В случае, если соседние значения равны между собой, то эта разность не рассматривается.
Если \(\mathcal{L}\) - общее число фаз (без начальной и конечной), и \[ z=\sqrt{\frac{90}{16T-29}}\left(\left|\mathcal{L}-\frac{2T-7}{3}\right|-0.5\right), \] то при \(z\gt z_{0.05}=1.96 (\alpha=5\%)\) статистика распределена нормально, то есть, нуль-гипотеза неверна и тренд существует.
Для нашего примера
Тогда число фаз для доли рынка равна \(\mathcal{L}=\) и z=, то есть,
Для колебаний цены число фаз равно \(\mathcal{L}=\) и z=, то есть,

Метод проверки разностей средних уровней.

Разобъем данный временной ряд из \(T\) значений на два, примерно с одинаковым числом значений, \(n_1\) и \(n_2\) (\(n_1+n_2=T\)) и найдем для каждой части среднее значение и дисперсию \[ \tilde{y}_1=\frac{1}{n_1}\sum_{t=0}^{n_1-1}y_t, \sigma_1^2=\frac{1}{n_1-1}\sum_{t=0}^{n_1-1}\left(y_t-\tilde{y}_1\right)^2, \] \[ \tilde{y}_2=\frac{1}{n_2}\sum_{t=n_1}^{T-1}y_t, \sigma_1^2=\frac{1}{n_2-1}\sum_{t=n_1}^{T-1}\left(y_t-\tilde{y}_2\right)^2. \] Следующим шагом будет проверка гипотезы однородности дисперсий, для чего найдем \[ F=\left\{ \begin{array}{lll} \frac{\sigma^2_1}{\sigma^2_2}, & \hbox{ если }& \sigma^2_1\gt \sigma^2_2,\\ \frac{\sigma^2_2}{\sigma^2_1}, & \hbox{ если }& \sigma^2_2\gt \sigma^2_1. \end{array} \right. \] Если \(F\lt F_{tab}\), то гипотеза однородности дисперсий принимается, иначе этот метод не дает ответа о наличии или отсутствии тренда. Значения критерия Фишера для 5% уровня ошибки приведены в таблице
T10203050100
Ftab2.982.121.841.441.26
Окончательная проверка существования тренда проводится с использованием t-критерия Стьюдента \[ t=\frac{|\tilde{y}_1-\tilde{y}_2|}{\tilde{\sigma}\sqrt{\frac{n_1+n_2}{n_1n_2}}}, \] где \(\sigma-\) среднеквадратичное отклонение разности средних \[ \tilde{\sigma}=\sqrt{\frac{(n_1-1)\sigma^2_1+(n_2-1)\sigma^2_2}{n_1+n_2-2}}. \] Если полученное значение \(t\lt t_{tab}\), то гипотеза принимается, то есть, тренда нет, иначе, тенденция временного ряда существует. Для определения табличного значения число степеней свободы равно \(n=n_1+n_2-2\).
Значения статистик Стьюдента для уровня ошибки \(\alpha\) приведены в таблице
n10203050100
ttab(α=0.01)3.16982.84532.752.67782.626
ttab(α=0.05)2.2282.0862.0422.0091.984
ttab(α=0.1)1.8331.7251.6971.6761.66
ttab(α=0.25)1.2211.1851.1731.1641.157
Для рассмотренного примера, в случае исследования доли рынка, разобъем весь временной ряд на две части - первая из которых от 1 до \(n_1\), вторая - все остальные, где \(n_1=18\) и \(n_2=18\). Тогда имеем \(\tilde{y}_1=\), \(\sigma^2_1=\) и \(\tilde{y}_2=\), \(\sigma^2_2=\). Отсюда получаем \(F=\) . Критерий Фишера для 5% уровня ошибки позволяет дать заключение о возможности существовании тренда.
Для разброса цен имеем \(\tilde{y}_1=\), \(\sigma^2_1=\) и \(\tilde{y}_2=\), \(\sigma^2_2=\). Как и в предыдущем случае, критерий Фишера для 5% уровня ошибки позволяет дать заключение о возможности существовании тренда.
Далее, используя критерий Стьюдента, проведем уточнение.
Для доли рынка \(\tilde{\sigma}=\) и \(t=\). Тренд не существует.
Для цены \(\tilde{\sigma}=\) и \(t=\). Тренд есть.

Метод Фостера-Стьюарта.

Данный метод позволяет более точно ответить на вопрос о существовании тренда временного ряда и, кроме того, дает возможность выяснить наличие тренда у дисперсии. Отсутствие тренда дисперсии говорит о том, что разброс уровней ряда постоянен, иначе он увеличивается или уменьшается. Эта информация достаточно важна при исследовании временного ряда.
Проведем сравнение каждого уровня ряда с предыдущим и рассмотрим бинарные последовательности \[ k_t= \left\{ \begin{array}{ll} 1, & \hbox{ если } y_t \hbox{ больше всех предыдущих уровней},\\ 0 & \hbox{ в противном случае}, \end{array} \right. \] \[ l_t= \left\{ \begin{array}{ll} 1, & \hbox{ если } y_t \hbox{ меньше всех предыдущих уровней},\\ 0 & \hbox{ в противном случае}, \end{array} \right. \] где \(t=1,2,3,...,T-1.\)
Найдем величины \(s\) и \(d\), характеризующие изменение временного ряда и дисперсии \[ s=\sum_{t=1}^{T-1}(k_t+l_t), d=\sum_{t=1}^{T-1}(k_t-l_t). \] Величина \(s\) характеризует изменение временного ряда, она может принимать значение от 0 (когда все уровни ряда равны) до \(T – 1\) (ряд монотонный). Величина \(d\) характеризует изменение дисперсии временного ряда и изменяется от \(-(T – 1)\) (ряд монотонно убывает) до \(T – 1\) (ряд монотонно возрастает). Эти величины являются случайными с математическим ожиданием µ для значения s и 0 для значения d.
Проверим гипотезы о случайности отклонения величины s от ее математического ожидания µ и о случайности отклонения величины d от нуля с помощью критерия Стьюдента для среднего и для дисперсии: \[ t_s=\frac{|s-\mu|}{\sigma_1},\sigma_1=\sqrt{2\ln{T}-3.4253}, \] \[ t_d=\frac{|d-0|}{\sigma_2},\sigma_2=\sqrt{2\ln{T}-0.8456}, \] где \(\mu=\sigma^2_2\) – математическое ожидание величины s для случайного временного ряда; \(\sigma_1\) – среднеквадратичное отклонение s для случайного временного ряда; \(\sigma_2\)– среднеквадратичное отклонение d для случайного временного ряда. Полученные значения \(t_s, t_d\) необходимо сравнить с табличными значениями критерия Стьюдента \(t_{tab}\). Если \(t_{tab}\) больше расчетного значения, то соответствующий тренд отсутствует: т.е., если \(t_s\gt t_{tab}\) (тренд дисперсии существует), а \(t_d\lt t_{tab}\), то тренд ряда отсутствует.
T101520253035404550
ts1.964 2.153 2.279 2.373 2.447 2.509 2.561 2.606 2.645
td1.288 1.521 1.677 1.791 1.882 1.956 2.019 2.072 2.121

Критические значения постоянных критерия Фостера-Стюарта.

Для приведенного примера. Относительно данных по доле рынка имеем

Отсюда \(s=\) и \(d=\) и \(t_s=\), \(\sigma_1=\), и, кроме того, \(t_d=\), \(\sigma_2=\). Оба расчетных значения, как \(t_s\), так и \(t_d\) меньше табличных, то есть, тренда нет, как у данных, так и у дисперсии.
А для цены, соответственно, получаем

соответственно, \(s=\) и \(d=\) и \(t_s=\), \(\sigma_1=\), и, кроме того, \(t_d=\), \(\sigma_2=\). Так как расчетные значения \(t_s\) и \(t_d\) меньше табличных, то тренда нет,ни у данных, ни у дисперсии.

Сезонные и цикличные компоненты во временных рядах

Те или иные регулярные явления в природе, технике, в нашей жизни, встречаются постоянно - это времена года, это сон-бодрствование, все что связано с переменным током, так или иначе завязано на 50 или 60 Гц (60 Гц — это принято в США и Канаде), в экономике, это циклы Кондратьева и так далее.
В чистом, рафинированном виде (без ускорения и помех) циклические изменения можно зависать в виде \begin{equation}\label{2.1} x(t) = \rho \cos (\omega t -\theta), \end{equation} где

\(\rho\) - амплитуда,
\(\omega\)- угловая скорость или частота,
θ - смещение фазы.

Здесь величина \(2\pi/\omega\) равна периоду цикла, а фазовое смещение указывает угол сдвига вдоль временной оси.
Таким образом, максимальное значение процесса, описываемого соотношением (\ref{2.1}) имеет при значении аргумента \(t = \theta/\omega+2\pi k, k=0,\pm 1,...\).
Используя формулу косинуса разности углов \(\cos (A-B) = \cos A\cos B + \sin A\sin B,\) можем переписать уравнение (\ref{2.1}) в виде \begin{equation}\label{2.2} x = \rho \cos \theta \cos (\omega t) + \rho \sin \theta \sin (\omega t)=\alpha\cos(\omega t)+\beta \sin(\omega t), \end{equation} где \begin{equation}\label{2.3} \alpha=\rho \cos \theta, \beta=\sin \theta , \alpha^2+\beta^2=\rho^2. \end{equation} Нахождение циклического компонента является важным элементом анализа числовых рядов. Циклический компонент может быть извлечен из последовательности данных путем простого применения метода линейной регрессии. Уравнение регрессии можно записать в виде \begin{equation}\label{2.4} y_t=\alpha c_t(\omega)+\beta s_t(\omega)+e_t, t=0,1,...,T-1, \end{equation} где \(c_t(\omega) = \cos (\omega t)\) и \(s_t (\omega) = \sin (\omega t)\).
В матричном виде уравнение (\ref{2.4}) примет вид \begin{equation}\label{2.5} y=\left[ \begin{array}{cc} c & s \\ \end{array} \right] \left[ \begin{array}{c} \alpha \\ \beta \\ \end{array} \right]+e, \end{equation} где \(c=\left[\begin{array}{ccc}c_0 &...& c_{T-1} \\ \end{array}\right]^T\) и \(s = [s_0 ... s_{T-1}]^T \) и \(e = [e_0 ... e_{T-1}] \) вектора из пространства размерности \(T\).
Параметры \(\alpha,\beta\) можно найти, применяя метод наименьших квадратов, что обеспечивает наименьшее значение суммы квадратов ошибки. Такая методика может быть использована для извлечения сезонного компонента из экономического временного ряда. В этом случае, мы заранее знаем, какую важность имеет значение \(\omega\), поскольку сезонность экономической деятельности связана, в конечном счете, с почти идеальными закономерностями фукционирования солнечной системы, которые отражаются в годовом календаре. В рассматриваемом случае имеет место необоснованное ожидание, что идеализированный сезонный цикл может быть представлен простой синусоидой. Волновые формы более сложного характера могут быть синтезированы с использованием ряда синусоидальных и косинусных функций, частоты которых являются целыми, кратными основной сезонной частоте. Если есть \(s = 2n\) равномерных наблюдений в год, то общая модель сезонных изменений будет содержать частоты \begin{equation}\label{2.6} \omega_j=\frac{2\pi j}{s},j=0,...,n=\frac{s}{2}, \end{equation} которые равномерно расположены на интервале \([0,\pi]\). Такая серия частот описывается как гармоническая шкала.
В этом случае модель сезонных изменений, включающая полный набор гармонически связанных частот, будет иметь вид \begin{equation}\label{2.7} y_t=\sum_{j=0}^n\left\{\alpha_j\cos(\omega_jt)+\beta_j\sin(\omega_jt)\right\}+e_t, \end{equation} где \(e_t\) - остаточный элемент, который может представлять собой нерегулярную составляющую белого шума процесса, лежащего в основе имеющихся данных.


Рисунок 2.1. Тригонометрические функции с частотой \(\omega =\pi/2\) и \(\omega =\pi\).

На первый взгляд, кажется, что в сумме есть s + 2 компонента. Однако, в случае, если s четно, имеем \[\sin (\omega_0t) = \sin (0) = 0;\\ \cos (\omega_0t) = \cos (0) = 1; \\ \sin (\omega_nt) = \sin (\pi t) = 0; \\ \cos (\omega_nt) = \cos (\pi t) = (-1)^t. \] Следовательно, определены только s ненулевых коэффициентов.
Пусть есть четыре наблюдения в год \(\omega_0 = 0, \omega_1 =\pi/2\) и \(\omega_2=\pi\) тогда \begin{equation}\label{2.9} y_t=\alpha_0+\alpha_1\cos\left(\frac{\pi t}{2}\right)+\beta_1\sin\left(\frac{\pi t}{2}\right)+\alpha_2(-1)^t+e_t, \end{equation} что в матричном виде \begin{equation}\label{2.10} \left[ \begin{array}{c} y_{\tau_0} \\ y_{\tau_1} \\ y_{\tau_2} \\ y_{\tau_3} \\ \end{array} \right]= \left[ \begin{array}{cccc} 1 & 1 & 0 & 1 \\ 1 & 0 & 1 & -1 \\ 1 & -1 & 0 & 1 \\ 1 & 0 & -1 & -1 \\ \end{array} \right] \left[ \begin{array}{c} \alpha_{0} \\ \alpha_{1} \\ \beta_{1} \\ \alpha_{2} \\ \end{array} \right] + \left[ \begin{array}{c} e_{\tau_0} \\ e_{\tau_1} \\ e_{\tau_2} \\ e_{\tau_3} \\ \end{array} \right]. \end{equation} В случае, если данные состоят из наблюдений \(T = 4p\), которые охватывают p лет, коэффициенты уравнения можно определить в следующем виде. \[ \alpha_0=\frac{1}{T}\sum_{t=0}^{T-1}y_t, \alpha_1=\frac{2}{T}\sum_{\tau=1}^{p}(y_{\tau_0}-y_{\tau_2}), \beta_1=\frac{2}{T}\sum_{\tau=1}^{p}(y_{\tau_1}-y_{\tau_3}), \alpha_2=\frac{1}{T}\sum_{\tau=1}^{p}(y_{\tau_0}-y_{\tau_1}+y_{\tau_2}-y_{\tau_3}). \] Альтернативная модель сезонности, которая чаще всего используется экономистами, имеет для каждого сезона свою переменную. Так, вместо уравнения (\ref{2.10}), можем взять \begin{equation}\label{2.12} \left[ \begin{array}{c} y_{\tau_0} \\ y_{\tau_1} \\ y_{\tau_2} \\ y_{\tau_3} \\ \end{array} \right]= \left[ \begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ \end{array} \right] \left[ \begin{array}{c} \delta_{0} \\ \delta_{1} \\ \delta_{2} \\ \delta_{3} \\ \end{array} \right] + \left[ \begin{array}{c} e_{\tau_0} \\ e_{\tau_1} \\ e_{\tau_2} \\ e_{\tau_3} \\ \end{array} \right]. \end{equation} где \[ \delta_j=\frac{4}{T}\sum_{\tau=1}^py_{\tau_j}, j=0,1,2,3. \] Используя соотношения (\ref{2.10}) и (\ref{2.12}), легко найти обратное \begin{equation}\label{2.14} \left[ \begin{array}{c} \alpha_0 \\ \alpha_1 \\ \beta_1\\ \beta_2\\ \end{array} \right]= \frac{1}{4} \left[ \begin{array}{cccc} 1 & 1 & 1 & 1 \\ 2 & 0 & -2 & 0 \\ 0 & 2 & 0 & -2 \\ 1 & -1 & 1 & -1 \\ \end{array} \right] \left[ \begin{array}{c} \delta_{0} \\ \delta_{1} \\ \delta_{2} \\ \delta_{3} \\ \end{array} \right]. \end{equation} Заметим, что все вышесказанное относится к случаю, когда известна периодическая составляющая временного ряда.

Периодограмма.

Пусть \(c_j = [c_{0,j},...,c_{T-1,j}]^T\) и \(s_j = [s_{0,j},...,s_{T-1,j}]^T \) - векторы T-мерного пространства, представляющие собой значения \(\cos(\omega_jt)\) и \(\sin(\omega_jt)\), соответственно. Тогда имеют место условия ортогональности \[ c^T_ic_j=0, i\ne j; s^T_is_j=0, i\ne j; c^T_is_j=0, \forall i,j. \] Кроме того, \[ c^T_0c_0=c^T_nc_n=T; s^T_0s_0=s^T_ns_n=0; c^T_jc_j=c^T_jc_j=\frac{T}{2}. \] Тогда коэффициенты Фурье можно записать в виде \[ \alpha_0=\frac{1}{T}\sum_ty_t=\bar{y}, \] \[ \alpha_j=(c^T_jc_j)^{-1}c^T_jy=\frac{2}{T}\sum_ty_t\cos\omega_jt, \] \[ \beta_j=(s^T_js_j)^{-1}s^T_jy=\frac{2}{T}\sum_ty_t\sin\omega_jt. \] Отсюда следует \[ y^Ty=\bar{y}^T\bar{y}+\sum_j\alpha^2_jc^T_jc_j+\sum_j\beta^2_js^T_js_j, \] где \(\bar{y}^T=[\bar{y},...,\bar{y}]\) - вектор из повторяющихся средних значений.
Тогда, замечая, что \(y^Ty-\bar{y}^T\bar{y}=(y-\bar{y})^T(y-\bar{y})\), получаем \begin{equation}\label{2.35} (y-\bar{y})^T(y-\bar{y})=\frac{T}{2}\sum_j\left(\alpha^2_j+\beta^2_j\right)=\frac{T}{2}\sum_j\rho^2_j. \end{equation} Вычисляя дисперсию, получаем \begin{equation}\label{2.36} \frac{1}{T}\sum_{t=0}^{T-1}(y_t-\bar{y})^2=\frac{1}{2}\sum_j\left(\alpha^2_j+\beta^2_j\right)= \frac{2}{T^2}\sum_j\left(\left(\sum_ty_t\cos\omega_jt\right)^2+\left(\sum_ty_t\sin\omega_jt\right)^2\right). \end{equation} Доля дисперсии, которая относится к компоненту на частоте \(\omega_j\) равна \(\left(\alpha^2_j+\beta^2_j\right)/2=\rho^2_j/2\), где \(\rho_j\) - амплитуда компонента.
Число частот Фурье возрастает с той же скоростью, что и размер выборки Т, поэтому, если дисперсия исходных данных остается слабой, и если в процессе генерации данных нет регулярных гармонических составляющих, то можно ожидать, что доля дисперсии, приписываемой отдельным частотам, будет уменьшаться по мере увеличения размера выборки. Если в процессе существует такой регулярный компонент, то можем ожидать, что доля отклонения, приписываемого ему, будет сходиться к неограниченному значению по мере увеличения размера выборки.
Масштабированное разложение выборочной дисперсии называется периодограммой \[ I(\omega_j)=T\frac{\alpha^2_j+\beta^2_j}{2}. \] Есть много примеров, где оценка перидограммы показала наличие регулярных гармонических составляющих в серии данных, которые в противном случае могли бы пройти незамеченными. Но, к сожалению, использование периодограммы не есть панацея, в случае наличия большого количества пиков, использование периодограммы может показать наличие неправильных периодов, что, естественно, приведет к неправильным результатам анализа временного ряда.
Исходные значенияПериодограмма

Эмпирические автоковариации

Естественным способом представления зависимости элементов последовательности данных является оценка их автоковариаций. Эмпирическая автоковариация с запаздыванием \(\tau\) определяется следующим образом \begin{equation}\label{2.37} c_\tau=\frac{1}{T}\sum_{t=\tau}^{T-1}(y_t-\bar{y})(y_{t-\tau}-\bar{y}). \end{equation} Эмпирическая автокорреляция с запаздыванием \(\tau\) равна \(r_\tau = c_\tau/c_0\), где \(c_0\) является автоковариацией отставания 0, и, по сути, является дисперсией последовательности. Автокорреляция обеспечивает измерение связей точек данных, которые разделены на периоды.
Несложно установить связь между периодограммой и последовательностью автоковариантов. Периодограмма может быть записана в виде \begin{equation}\label{2.38} I(\omega_j)= \frac{2}{T}\left(\left(\sum_{t=0}^{T-1}(y_t-\bar{y})\cos\omega_jt\right)^2+\left(\sum_{t=0}^{T-1}(y_t-\bar{y})\sin\omega_jt\right)^2\right). \end{equation} Заметим, что из равенства \(\sum_t\cos(\omega_jt)=0,\forall j\) получаем \(\sum_t(y_y-\bar{y})\cos(\omega_jt)=\sum_ty_t\cos(\omega_jt)\) и соотношение (\ref{2.38}) примет вид \begin{equation}\label{2.39} I(\omega_j)= \frac{2}{T}\left(\sum_{t=0}^{T-1}\sum_{\nu=0}^{T-1}(y_t-\bar{y})(y_\nu-\bar{y})\cos\omega_jt\cos\omega_j\nu\right)+ \frac{2}{T}\left(\sum_{t=0}^{T-1}\sum_{\nu=0}^{T-1}(y_t-\bar{y})(y_\nu-\bar{y})\sin\omega_jt\sin\omega_j\nu\right). \end{equation} Отсюда и из \(\cos A\cos B+\sin A\sin B=\cos(A-B)\), сразу получаем \[ I(\omega_j)= \frac{2}{T}\left(\sum_{t=0}^{T-1}\sum_{\nu=0}^{T-1}(y_t-\bar{y})(y_\nu-\bar{y})\cos\left(\omega_j(t-\nu)\right)\right). \] Полагая \(\tau=t-\nu\) и \(c_\tau=\frac{1}{T}\sum_t(y_t-\bar{y})(y_{t-\tau}-\bar{y})\), получаем \[ I(\omega_j)= 2\sum_{\tau=1-T}^{T-1}\cos\left(\omega_j\tau\right)c_\tau. \] преобразование Фурье последовательности эмпирических автоковариаций.

Прогноз значений временных рядов.

Полезная литература. Книги.

  1. Brockwell P.J. Introduction to Time Series and Forecasting / P.J.Brockwell, R.A.Davis .— New York: Springer-Verlag Inc, 2002 .— 434 p.
  2. Chatfield C. Time Series/ An Introduction. / C.Chatfield .— London: Chapman&Hall/CRC, 1995 .— 283 p.
  3. Enders W. Applied Econometric Time Series / W.Enders .— London: John Wiley & Sons, INC, 2004 .— 460 p.
  4. Falk M. A First Course on Time Series Analysis | Examples with SAS / M.Falk .— W¨urzburg: Chair of Statistics, University of W¨urzburg, 2012 .— 364 p.
  5. Franses P.H. Nonlinear Time Series Models in Empirical Finance / P.H.Franses, D.Dijk .— Cambridge: Cambridge University Press, 2003 .— 280 p.
  6. Introduction to Time Series Analysis
  7. Gourieroux C. Time Series and Dynamic Models / C.Gourieroux, A.Monfort .— Cambridge: Cambridge University Press, 1990 .— 668 p.
  8. Hamilton J. Time Series Analysis / J.Hamilton .— New Jersey: Princeton University Press, 1994 .— 799 p.
  9. Harris R. Applied Time Series. Modelling and Forecasting / R.Harris, R.Sollis .— Chichester: John Wiley & Sons Ltd, 2003 .— 302 p.
  10. Lutkepohl H. Applied Time Series Econometrics / H.Lutkepohl, M.Kratzig .— Cambridge: Cambridge university press, 2004 .— 350 p.
  11. Planas C. Applied Time Series Analysis: Modelling, Forecasting, Unobserved Components Analysis and the Wiener-Kolmogorov Filter / C.Planas .— Luxemburg: Eurostat, 1997 .— 171 p.
  12. Pollock D.S. A Handbook of Time-Series Analysis, Signal Processing and Dynamics / D.S.Pollock .— San Diego: AP, 1999 .— 808 p.
  13. Shumway R. Time Series Analysis and Its Applications / R.Shumway, D.Stoffer; With R Examples .— New York, Dordrecht, Heidelberg, London: Springer, 2011 .— 202 p.
  14. Schelter B. Handbook of Time Series. Analysis Recent Theoretical Developments and Applications / B.Schelter, M.Winterhalder, J.Timmer .— Leipzig: Wiley-VCH, 2002 .— 496 p.
  15. Terrell D. Econometric Analysis Of Financial and Economic Time Series / D.Terrell, T.Fomby .— Amsterdam: Elsevier, 2006 .— 380 p.
  16. Tsay R. Analysis of Financial Time Series / R.Tsay .— Hoboken: John Wiley & Sons, INC, 2005 .— 605 p.
  17. Анализ временных рядов
  18. Андерсон Т. Статистический анализ временных рядов / Т.Андерсон .— М: Мир, 1976 .— 755 с.
  19. Афанасьев В.Н. Анализ временных рядов и прогнозирование / В.Н.Афанасьев, М.М.Юзбашев; Учебник .— М: Финансы и статистика, 2001 .— 228 с.
  20. Бокс Д. Анализ временных рядов прогноз и управление. Том 1. / Д.Бокс, Г.Дженкинс .— М: Мир, 1974 .— 406 с.
  21. Бокс Д. Анализ временных рядов прогноз и управление. Том 2. / Д.Бокс, Г.Дженкинс .— М: Мир, 1974 .— 197 с.
  22. Бриллинджер Д. Временные ряды. Обработка данных и теория. / Д.Бриллинджер .— М: Мир, 1980 .— 536 с.
  23. Витязев В.В. Вейвлет-анализ временных рядов / В.В.Витязев; Учеб. пособие. .— СПб: Изд-во С.-П. ун-та, 2001 .— 58 с.
  24. Грешилов А.А. Математические методы построения прогнозов / А.А.Грешилов, В.А.Стакун, А.А.Стакун .— М: Радио и связь, 1997 .— 112 с.
  25. Канторович Г.Г. Анализ временных рядов / Г.Г.Канторович .— М: ВШЭ, 2002 .— 129 с.
  26. Кассандрова О.Н. Обработка результатов наблюдений / О.Н.Кассандрова, В.В.Лебедев .— М: Наука, 1970 .— 104 с.
  27. Кендалл М. Статистические выводы и связи / М.Кендалл, А.Стьюарт .— М: Наука, 1973 .— 899 с.
  28. Кендалл М. Многомерный статистический анализ и временные ряды / М.Кендалл, А.Стьюарт .— М: Наука, 1976 .— 736 с.
  29. Кендалл М. Временные ряды / М.Кендалл .— М: Финансы и статистика, 1981 .— 199 с.
  30. Лоскутов А.Ю. Анализ временных рядов / А.Ю.Лоскутов; Курс лекций .— М: МГУ, 2009 .— 113 с.
  31. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов / Ю.П.Лукашин .— М: Финансы и статистика, 2003 .— 414 с.
  32. Медведев Г.А. Практикум на ЭВМ по анализу временных рядов: Учеб. пособие / Г.А.Медведев, В.А.Морозов. — Мн.: Университетское, 2001. — 192 с.
  33. Носко В.П. Эконометрика. Введение в регрессионный анализ временных рядов / В.П.Носко .— М: НФПК, 2002 .— 208 с.
  34. Отнес Р. Прикладной анализ временных рядов. Основные методы / Р.Отнес, Л.Эноксон .— М: Мир, 1982 .— 428 с.
  35. Садовникова Н.А. Анализ временных рядов и прогнозирование / Н.А.Садовникова, Р.А.Шмойлова; Вып. 3: Учебно-методический комлекс .— М: Изд. центр ЕАОИ, 2009 .— 264 с.
  36. Хеннан Э. Многомерные временные ряды / Э.Хеннан .— М: Мир, 1974 .— 575 с.
  37. Ярушкина, Н. Г. Интеллектуальный анализ временных рядов : учебное пособие /Н. Г. Ярушкина, Т. В. Афанасьева, И. Г. Перфильева. – Ульяновск: УлГТУ, 2010. – 320 с.

Полезная литература. Статьи.

  1. A Recommendation Method Considering Users’ Time Series Contexts / [K.Oku, S.Nakajima, J.Miyazaki та ін.] // ICUIMC-09 .— S.Korea, 2009 .— P.495-500.
  2. Daily-Aware Personalized Recommendation based on Feature-Level Time Series Analysis / [Y.Zhangyz, M.Zhangy, Y.Zhangz ets.] // International World Wide Web Conference Committee (IW3C2) .— Florence, 2015 .— P.1373-1383.
  3. Freudenthalera C. Factorizing Markov Models for Categorical Time Series Prediction / C.Freudenthalera, S.Rendleb, L.Schmidt‐Thiemea // AIP Conference Proceedings, 2011 .— P.1-5.
  4. Shumeiko A. Discrete trigonometric transform and its usage in digital image processing / A.Shumeiko, V.Smorodskyi // EconTechMod. An International Quarterly Journal .— 2017 .— №4(6) .— P.21-26.
  5. Анатольев С. Обзор англоязычных учебников по анализу временных рядов. / С.Анатольев // Квантиль .— 2008 .— №5 .— C.49-55.
  6. Намиот Д.Е. Базы данных временных рядов в системах «Интернета вещей» / Д.Е.Намиот // Прикладная информатика .— 2017 .— Том 12. № 2 (68) .— C.79-87.
  7. Попова О.А. О подходах к агрегации данных в задачах восстановления зависимостей / О.А.Попова // Интеллектуальные технологии в управлении .— 2017 .— №2 .— C.45-50.

Вопрос-ответ.

Задать вопрос: