一文搞懂时间序列多步预测的原理

理解时间序列多步预测三种方法（多图）

时间序列多步预测指的是根据现有数据训练一个模型去预测未来若干时间步的取值。

完成时间序列的多步预测需要三个步骤：

数据预处理实现，关注数据的清洗、变换等
预测模型的实现、训练、优化，根据场景需求而定，模型可能是机器学习模型，也可能是深度学习模型。不存在通用的模型能满足所有的场景。预测结果的好坏取决于模型的实现、训练优化。
多步预测算法的实现。

第一第二步都是机器学习深度学习任务的必备，这里的关键是第三步。时间序列多步预测（forecasting）有三种方法：

以时间为自变量的线性外推
自回归（如RNN、AR模型、滑动窗口）
概率化自回归，对连续数据离散化，训练概率模型，并使用一定的技巧如beam search搜索多步预测结果

以时间为自变量的外推

时间外推方法，建立当前时间戳到与之对应的取值的映射，假设有时间序列样本[y0,y1,…,yT][y0,y1,…,yT]，以时间戳tt作为变量，寻找如下模型

yt=f(t)yt=f(t)

最简单的就是线性模型，

yt=αt+βyt=αt+β

更复杂点的模型如，

y=exp(αt+βsin(γt+ψ))y=exp⁡(αt+βsin⁡(γt+ψ))

通常以时间为自变量的模型都会把趋势、季节性周期因素分解，即如下形式

Yt=Tt+St+et,et∼N(0,σ2)Yt=Tt+St+et,et∼N(0,σ2)

对于时间戳TT之外的预测，直接使用模型f(t)f(t)外推即可，

yT+m=f(T+m),m=1,2,…yT+m=f(T+m),m=1,2,…

以时间为自变量的外推的方法的一个好处是多步预测时可以同时计算[f(T+1),f(T+2),…,f(T+m)][f(T+1),f(T+2),…,f(T+m)]，Facebook Prophet 就是这类模型。

时间外推法有很大的局限性，仅能捕捉到时序中的长期依赖关系，对于局部依赖无法很好建模，并且不是所有数据都满足线性外推假设，比如有效市场的资产价格时间序列。

自回归方法

自回归类方法假定时间序列样本[y0,y1,…,yT][y0,y1,…,yT]，满足如下关系

yt+1=f(yt,yt−1,…,yt−s+1)yt+1=f(yt,yt−1,…,yt−s+1)

这里的ss表示窗口大小。该模型建立历史值与当前值的映射关系，是对数据局部关系的很好描述。

例如AR模型，线性自回归模型使用历史数据的线性组合来表示当前的取值，

Yt=c+p∑i=1φiYt−i+εt,εt∼N(0,σ2)Yt=c+∑i=1pφiYt−i+εt,εt∼N(0,σ2)

考虑到模型需要保存内部状态，那么可以表示为，

yt,ht=f(ht−1,yt−1,⋯,yt−p)yt,ht=f(ht−1,yt−1,⋯,yt−p)

画图表示为，

对于时间戳TT之外的预测，使用递归的方式逐步预测，

yT+1=f(yT,yT−1,…,yT−s+1)yT+2=f(yT+1,yT,…,yT−s+2)…yT+m=f(yT+m−1,yT,…,yT−s+m)yT+1=f(yT,yT−1,…,yT−s+1)yT+2=f(yT+1,yT,…,yT−s+2)…yT+m=f(yT+m−1,yT,…,yT−s+m)

自回归方法的一个不足之处是多步预测必须要顺时间递归完成。即完成yT+1yT+1的预测后，才能继续预测yT+2yT+2的预测，以此类推。当然，这也没什么好说的，这是所有递归模型的问题，包括LSTM、GRU等等。

概率化自回归

概率化自回归是对连续变量ytyt离散化后，构建概率化预测模型的方法。首先要对连续变量ytyt离散化，这点怎么操作呢？假设连续变量ytyt的取值区间为[−1,1][−1,1]，然后对该区间分桶（即bins），接着对各个桶从左到有编号0,1,2,…0,1,2,…。这个编号相当于NLP中的字ID，这时候ytyt对应着它所在的桶的编号YtYt。

Numpy下的实践，

>>> bins = np.linspace(0, 1, 10)
>>> bins
array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])
>>> bins = np.linspace(0, 1, 10, False)
>>> bins
array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
>>> x = np.random.uniform(size=10)
>>> x
array([0.98816523, 0.28613387, 0.48161244, 0.28076301, 0.38599178,
       0.4806316 , 0.9279194 , 0.65024362, 0.45898942, 0.40536447])
>>> np.digitize(x, bins)
array([10,  3,  5,  3,  4,  5, 10,  7,  5,  5])
>>>

于是，接下来的思路就和NLP中的序列生成seq2seq一致。概率自回归模型，

其中训练序列为SS，预测序列为YY的观察概率。然后多步预测时使用beam search搜索。

滑动窗口自回归

以上我们介绍了三种时间序列多步预测方法，这里详细深入基于滑动窗口自回归的方法。

转化为带标注数据

时间序列数据没有带标注，而带监督的机器学习学习模型的训练需要定义输入与输出，那么怎么把时间序列数据转化为带标注的形式呢？

首先把原始序列（预处理后）化成带标注形式，从自会回出发，时序之间存在自回归关系。那么，我们可以把它转化为带标注形式的数据：

how-to-label-data

图中的样本XtXt是模型的输入，有时间戳tt及其之前ss大小窗口内的元素决定，

Xt=[yt,yt−1,…,yt−s+1]Xt=[yt,yt−1,…,yt−s+1]

模型输入XtXt对应输出yt+1yt+1，即

yt+1=f(Xt)=f([yt,yt−1,…,yt−s+1])yt+1=f(Xt)=f([yt,yt−1,…,yt−s+1])

这种方法在 seq2seq 任务中，训练 RNN 神经网络称为 forcing teaching。我们称它为自监督标注。这种做法在 NLP 中训练 RNN 十分普遍，只不过我们把它引入到时序预测中。时间窗口的大小以超参数的形式存在，也可以考虑自动化地确定时间窗口的大小。

对于窗口大小为s的样本，模型ff学习窗口内数据到下一个时间步的映射，

yt+1f←(yt,yt−1,…,yt−s+1)yt+1←f(yt,yt−1,…,yt−s+1)

在给定训练技巧下，获得满足交叉验证的模型后就可以进行时间序列多步预测。

⎡⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢⎣y1y2y3⋮yt⎤⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥⎦=⎡⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢⎣y0y−1y−2…y1y0y−1…y2y1y0…⋮⋮⋮⋱yt−1yt−2yt−3⋯⎤⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥⎦⎡⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢⎣fff⋮f⎤⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥⎦[y1y2y3⋮yt]=[y0y−1y−2…y1y0y−1…y2y1y0…⋮⋮⋮⋱yt−1yt−2yt−3⋯][fff⋮f]

递归多步预测

预测时，通过滑动一个固定的窗口完成多步预测，

how-to-forecast-time-series

如果使用的预测模型是神经网络，则没有显式的特征计算过程。

借用deepmind wavenet 中一动画更直观理解多步预测，

how-to-forecast-time-series

有关的实现更新到这里：https://github.com/allenwind/time-series-forecast ，基于该框架的一些预测实例，

以上实现可能会根据情况更新调整~

本文简单分享了时间序列多步预测的思路，并提供了实现。

转载请包括本文地址：https://allenwind.github.io/blog/11389
更多文章请参考：https://allenwind.github.io/blog/archives/

一文搞懂时间序列多步预测的原理

一文搞懂时间序列多步预测的原理

以时间为自变量的外推

自回归方法

概率化自回归

滑动窗口自回归

转化为带标注数据

递归多步预测

Recommend

栈的压入、弹出序列（算法22）

数组函数妙用

ZFS文件系统中的ARC缓存算法

深度学习中的参数初始化及其数学分析

Actor并发模式实现

反转链表（算法16）

概率图模型系列（3）：隐马尔可夫模型（HMM）

函数光滑近似（4）：Heaviside step函数及其应用

Linux系统中安装多版本gcc

实现Singleton模式（算法2.1）

About Joyk