3

机器学习(三十七)——时间序列分析(1), 辛普森悖论

 2 years ago
source link: http://antkillerfarm.github.io/ml/2018/06/08/Machine_Learning_37.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Parameter Server(续)

https://www.zhihu.com/question/26998075

最近比较火的parameter server是什么?

http://blog.csdn.net/cyh_24/article/details/50545780

Parameter Server详解

https://mp.weixin.qq.com/s/yuHavuGTYMH5JDC_1fnjcg

阿里妈妈基于TensorFlow做了哪些深度优化?TensorFlowRS架构解析

https://zhuanlan.zhihu.com/p/29968773

大规模机器学习框架的四重境界

https://mp.weixin.qq.com/s/2RCH2Or_ITUTGrlfYLB8mg

腾讯千亿级参数分布式ML系统无量背后的秘密

https://mp.weixin.qq.com/s/Na2SJkfC9LzgfbTfSCclOw

如何基于Ray使用15行代码实现参数服务器

https://zhuanlan.zhihu.com/p/82116922

一文读懂“Parameter Server”的分布式机器学习训练原理

https://mp.weixin.qq.com/s/5Ae1NyLM-jZnO6TCOPMYkQ

PS Worker分布式性能优化

时间序列分析

书籍和教程

http://www.stat.berkeley.edu/~bartlett/courses/153-fall2010/

berkeley的时间序列分析课程

http://people.duke.edu/%7Ernau/411home.htm

回归和时间序列分析

《应用时间序列分析》,王燕著。

https://mp.weixin.qq.com/s/w_u6_lG-_b0t4m4YubjeRQ

最新《时间序列分析》课程笔记,477页pdf

https://mp.weixin.qq.com/s/8Ua7wYfRdv0fu8I-M3sdHg

统计学习与序列预测,261页pdf

https://mp.weixin.qq.com/s/J3RdKXZs7Wb976E512TJjw

最新《时序数据分析》书稿,512页pdf

时间序列,就是按时间顺序排列的,随时间变化的数据序列。

生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温…

随机过程的特征有均值、方差、协方差等。

如果随机过程的特征随着时间变化,则此过程是非平稳的;相反,如果随机过程的特征不随时间而变化,就称此过程是平稳的。

下图所示,左边非稳定,右边稳定。

非平稳时间序列分析时,若导致非平稳的原因是确定的,可以用的方法主要有趋势拟合模型、季节调整模型、移动平均、指数平滑等方法。

若导致非平稳的原因是随机的,方法主要有ARIMA及自回归条件异方差模型等。

ARIMA

ARIMA模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),也叫求和自回归移动平均模型,是由George Edward Pelham Box和Gwilym Meirion Jenkins于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。

注:Gwilym Meirion Jenkins,1932~1982,英国统计学家。伦敦大学学院博士,兰卡斯特大学教授。

同《数学狂想曲(十一)》中的PID算法一样,ARIMA模型实际上是三个简单模型的组合。

Xt=c+∑i=1pφiXt−i+εt

其中,p为阶数,εt为白噪声。上式又记作AR(p)。显然,AR模型是一个系统状态模型。

Xt=μ+εt+∑i=1qθiεt−i

上式记作MA(q),其中q和εt的含义与上同。MA模型是一个噪声模型。

ARMA模型

AR模型和MA模型合起来,就是ARMA模型:

Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i

同理,上式也被记作ARMA(p,q)

Lag operator

在继续下面的描述之前,我们先来定义一下Lag operator–L。

LXt=Xt−1orXt=LXt+1(1−L)dXt

上式中d为阶数,因此上式也记作I(d)。显然I(0)=Xt。

I模型有什么用呢?我们观察一下I(1):

(1−L)Xt=Xt−Xt−1=ΔX

有的时候,虽然I(0)不是平稳序列,但I(1)是平稳序列,这时我们称该序列是1阶平稳序列。n阶的情况,可依此类推。

ARIMA模型

ARIMA模型可以看作是两个随机过程的组合。

首先是非平稳过程:

Yt=(1−L)dXt

接着是一个广义平稳过程:

(1−∑i=1pϕiLi)Yt=(1+∑i=1qθiLi)εt

最后得到ARIMA模型的公式:

(1−∑i=1pϕiLi)(1−L)dXt=δ+(1+∑i=1qθiLi)εt

上式也被记作ARIMA(p,d,q)。从上式可以看出,ARIMA模型实际上就是利用I模型,将时间序列转化为平稳序列之后的ARMA模型。

注:上面的内容只是对ARIMA模型给出一个简单的定义。实际的假设检验、参数估计的步骤,还是比较复杂的,完全可以写本书来说。

除了ARIMA系列模型之外,ARCH系列模型也用的比较多:

autoregressive conditional heteroskedasticity, ARCH

generalized autoregressive conditional heteroskedasticity, GARCH

上面介绍的序列建模方法主要针对的是:预测未来节点,即所谓的走势分析问题。

时间序列的常见问题还包括:

  • 判断不同序列类别,即序列分类问题。

  • 不同时序对应的状态的分析,即序列标注问题。

这些问题的常见工具包括HMM、CRF、RNN等,可参见其他相关章节。

https://mp.weixin.qq.com/s/LAn9h6_WkxlZ_IsrhnzZCw

波动率建模之ARCH模型

Prophet

Prophet是FaceBook提出的时间序列算法。同时,也是该算法的工具包的名字。

https://facebook.github.io/prophet/

https://mp.weixin.qq.com/s/ven_4JbWYFswIkGyhjTcww

Prophet:教你如何用加法模型探索时间序列数据

https://mp.weixin.qq.com/s/PMsAjk7WbGRu2n3s6Q8prQ

Facebook时间序列预测算法Prophet的研究

https://mp.weixin.qq.com/s/bf_CHcoZMjqP6Is4ebD58g

使用Prophet预测股价并进行多策略交易

https://mp.weixin.qq.com/s/pJTDJrMCfv5y4LQ2itt1tQ

Facebook的Prophet算法简介与使用

https://mp.weixin.qq.com/s/675ASxDSVH_8BX6W8WRRqg

基于Prophet的时间序列预测

https://mp.weixin.qq.com/s/4rJL3cccsjVqgrNDjcMIJw

Prophet:Facebook创造的先知

https://mp.weixin.qq.com/s/Ylvk3IqSWRD2K_AXMZwnoA

手把手教你用Python的Prophet库进行时间序列预测

https://mp.weixin.qq.com/s/fMkxWLGSKQm_3fyfLgbQew

详解Prophet模型以及代码示例

https://mp.weixin.qq.com/s/s3R-_cuTYR7Z8w9DhlxifQ

NeuralProphet:基于神经网络的时间序列建模库

Lebesgue积分

蓝色的是Riemann积分,红色的是Lebesgue积分。

Henri Léon Lebesgue,1875~1941,法国数学家。

https://zhuanlan.zhihu.com/p/34407471

如何理解时间序列?—从Riemann积分和Lebesgue积分谈起

https://zhuanlan.zhihu.com/p/49262150

从Riemann积分到Lebesgue积分

https://zhuanlan.zhihu.com/p/90607361

Quadrature求积法

https://zhuanlan.zhihu.com/p/91709767

ODE’s Initial value problem (IVP)

https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average

https://en.wikipedia.org/wiki/Autoregressive%E2%80%93moving-average_model

https://zhuanlan.zhihu.com/p/23534595

时间序列分析:结合ARMA的卡尔曼滤波算法(该文的参考文献中有不少好文)

http://blog.csdn.net/aliceyangxi1987/article/details/71079522

用ARIMA模型做需求预测

http://blog.csdn.net/kicilove/article/details/78315335

时间序列初级理论篇

https://mp.weixin.qq.com/s/Y342U71oicbpJbWl4E0ZEQ

时间序列基本概念

https://mp.weixin.qq.com/s/K-XGuaWTcF6BDPJagaJDPQ

时序数据与事件的关联分析

https://mp.weixin.qq.com/s/JR-GIXwHF45OysoE0qvwzw

时间序列异常检测机制的研究

https://mp.weixin.qq.com/s/MYwvuD85PPs3PJA5tMxvgw

6种时序异常检测思路总结!(tsod)

https://mp.weixin.qq.com/s/2hpQ_7Ih58d1RKYb1oW_Sg

时间序列简介(一)

https://zhuanlan.zhihu.com/p/35093835

时间序列的自回归模型—从线性代数的角度来看

https://zhuanlan.zhihu.com/p/39105270

时间序列的表示与信息提取

https://mp.weixin.qq.com/s/iah8PvIC0oZngSaNHw7gJw

从上帝视角看透时间序列和数据挖掘

https://zhuanlan.zhihu.com/p/38130622

时间序列的相似性

https://mp.weixin.qq.com/s/DGGuAYsoa6DPD6FBf2Hc4g

时间序列分析之理论篇

https://zhuanlan.zhihu.com/p/50698719

两篇关于时间序列的论文

https://zhuanlan.zhihu.com/p/55129654

时间序列的单调性

https://zhuanlan.zhihu.com/p/55903495

时间序列的聚类

https://mp.weixin.qq.com/s/2teyejpbpM6x5UCiYL8s-Q

关于时间序列你需要了解的一切

https://mp.weixin.qq.com/s/Aqh9lZvyDncyCdXgxH1lSQ

短小时序,如何预测?——基于特征重构的张量ARIMA

https://mp.weixin.qq.com/s/NHwMVzZWOU24pdbjzcchAg

从AR到ARIMA

https://mp.weixin.qq.com/s/QZ_AcfzuB7JQEE6cDz5G1A

自回归模型

https://mp.weixin.qq.com/s/fYQwRJGrTlX4_GqMt_CYMQ

时间序列基础教程总结

https://mp.weixin.qq.com/s/f0BwjlsEBlFVDxNlZqgf-g

Python时间序列分析:一项基于案例的全面指南

辛普森悖论

如果分专业来看,你就会发现:在各个专业女生的录取率其实都是更高的。之所以会产生“总体录取率女生偏低”这一结果,是因为女生大部分都报考了那些本身就难以录取的学院,而男生则大部分报考了那些录取率本身就偏高的学院。

https://mp.weixin.qq.com/s/5jZ2dzLInLtUw7rWZF4mtg

张忠元:渣男受女生欢迎?当心统计陷阱

https://mp.weixin.qq.com/s/o1a2YlYritcOrsLN2YuLmA

神奇的霍特林法则:为什么汉堡王总是开在麦当劳旁边?

https://mp.weixin.qq.com/s/eq4MllJta5NmaLARPpvang

公交车总迟到?你大概掉进了“等待时间悖论”

https://zhuanlan.zhihu.com/p/43934918

诡异的布雷斯悖论:为什么越是修新路,城市反而更堵了!

https://mp.weixin.qq.com/s/-0VMucGBq4Trb_9FnsW6KQ

10大反直觉的数学结论

https://mp.weixin.qq.com/s/FqY19sTQd7GPdGSsB5L9eQ

数学大反例合集

https://mp.weixin.qq.com/s/EICefFM3dfv5A6V9kVqGWw

吸烟致癌的迷思是如何破除的

https://mp.weixin.qq.com/s/NlJ4-b5SjIjPGgvLUuSxFw

孩子,有时候并不是生活欺骗了你,而是你可能还不懂概率统计……


Recommend

  • 57

    关键要点 在深入了解使用机器学习来了解软件系统行为之前,必须先了解传统的时间序列方法。 时间序列数据的值缺失可能会在分析时导致意外结果,Pandas库可以帮为你填充合理的默认值。...

  • 15

    五十一岁的周慧敏,六十四岁的赵雅芝,四十七岁的俞飞鸿 ,四十八岁的郑秀文,四十四岁的林志玲,四十岁的大S,四十三岁的佘诗曼 ,三十七岁的秦岚,七十一岁的郑少秋…

  • 32

    想象一下,你和你的小伙伴正在努力寻找一个完美的餐厅,以便愉快的享用晚餐。我们清楚这个过程可能会花费数小时去争论,你会找到现代生活的便利之处:在线评论。通过在线评论,你找到了自己的选择,推荐 Carlo's 餐厅的男女用户的比例都高...

  • 27
    • xie.infoq.cn 3 years ago
    • Cache

    什么是辛普森悖论?

    以一种方式查看数据可以讲述一个故事,但是有时以另一种方式查看数据可以讲述相反的故事。了解这一悖论及其发生的原因至关重要,并且可以使用新工具来自动检测数据集中的这一棘手问题。 当我们想研究数据中的关系时,我们可以...

  • 12

    思路探讨(三十七) 良性循环的建立与恶性循环的改善良性循环和恶性循环存在于我们生活工作的方方面面,我们应该如何建立良性循环,如何改善恶性循环呢。最近看了很多大萧条时期的文章,在那个时间段的人,面对大环境不好的情况折射出来的无力感...

  • 6

    美国动画《辛普森一家》最新一集显示比特币价值涨至无限高,对此,OKEx CEO Jay Hao发推表示,这可能是《辛普森一家》第19次准确预言未来,并隔空喊话制作人,希...

  • 4
    • www.physixfan.com 3 years ago
    • Cache

    辛普森悖论:诡异的男女比例

    辛普森悖论:诡异的男女比例 作者: physixfan 大学的男女比例问题一直是广大宅男同胞所关心的重大问题,也是高中同学聚会时必然谈起的话题,对于选择大学来说,这也是一项重要指标~.. 一天,我拿出两个大学(P大和...

  • 1
    • allenwind.github.io 2 years ago
    • Cache

    时间序列都有哪些机器学习任务?

    Mr.Feng BlogNLP、深度学习、机器学习、Python、Go时间序列都有哪些机器学习任务?时间序列都有哪些机器学习任务? 时间序列任务overview工业互...

  • 1

    Optimizer进阶 https://mp.weixin.qq.com/s/T4f4W0V6YNBbjWqWBF19mA 目标函数的经典优化算法介绍 https://mp.weixin.qq.com/s/R_0_E5Ieaj9KiWgg1prxeg 为什么梯度的方向与等高线切线方向垂直? https://mp.weixin.qq...

  • 5

    人脸检测/识别 参考(续) https://github.com/ChanChiChoi/awesome-Face_Recognition 不止面部识别,一切关于人脸AI的资源都能在这里下载 https://mp.weixin.qq.com/s/FqH_5ztUWRDqb6X9_QggJw 深度学习在人脸检测...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK