0

统计学发展方向的选择

 3 years ago
source link: https://cosx.org/2015/10/choice-of-statistical-development-direction/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
统计学发展方向的选择 | 统计之都

看这题目,多吓唬人。又是方向,又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难。为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向,确实关乎取舍。或者,至少关乎我自己的研究团队(小二十号兄弟姐妹)的方向和选择!

战略选择1

首先给大家简单介绍一点背景知识,小小吐槽一下现在统计学正面临的挑战。先从方法论说起。统计学的方法论主要依赖数学,尤其是概率论。其中又以大数定理和中心极限定理被使用的最为广泛。值得一提的是,统计学用数学做工具,但不是数学。这就像物理学会用到很多数学工具,但物理学不是数学。这还可以从国外成熟大学的学科设置来看,统计学很少跟数学系待在一起。数学家追求的是数学逻辑上的优美,以及挑战性。从这个角度看,统计学实在不优美,也没啥挑战性。整来整去,不就是大数定理跟中心极限定理吗?所以,统计学家的工作,数学家会欣赏的可能性不大。我想,这是可以理解的,毕竟大家的关注点不一样。那统计学家关注什么呢?

统计学家说:我们关注实际应用!这句话理直气壮地说了几十年。直到最近,好像受到一点挑战… 之前我的一篇文章提到,统计学的发展主要受到:产业变革,技术进步,以及制度环境驱动。这是统计学应用的沃土!但是最近,当这些沃土出现的时候,发现有一批人,他们比统计学工作者更早更快滴开垦了这片沃土。他们是谁?他们是一批实干的计算机工作者。计算机工作者首先接触大数据沃土,这是不可避免的。因为,大数据就要数据仓库啊,谁做?当然得计算机专家做。做完了捎带整整数据,做点简单的描述统计,这有啥难。统计学家要模型算法?这也不难,千万不要认为这是你们的专利,不就几个回归模型嘛,算法也不复杂。再不行,咱自己开发几个跟统计学模型关系不大的算法来,例如 TREE, SVM, RANDOM FOREST 啥的。预测效果也相当不错啊!你看,统计学家能做的模型,似乎计算机专家都可以做,或者找到替代品。但是,计算机专家可以做的,例如数据仓库,统计学家可绝对做不了,太伤心了!让我找个角落哭会去,555555

看到问题没有?统计学快要被计算机替代了!这不是我一个人的看法,这是很多统计学同仁的看法。当然我们这个看法不一定对,但是可能反映一些现状。例如在美国,有几所很好的统计系,他们新招聘的统计学教员中有计算机博士。但是,似乎没有听说过某个一流计算机系招聘统计学博士。怎么办?办法一,就这样了,如果山雨欲来,那就等死吧。这个办法太消极了,太负能量了,没人同意。方法二,加强计算机训练,尤其以 HADOOP(Map-Reduce)为代表的并行存储和计算理论。大家觉得怎样?是不是方法二靠谱多了。而事实上,方法二确实是国内外,很多统计学主导的大数据教学项目的实施重点。有学者甚至认为这是大数据时代,统计学研究的一个发展重点。我本人,曾经是这个想法的积极支持者。但是,我最近似乎有点动摇… 为什么?

第一,毋庸置疑,在大数据时代,统计学工作者需要多学点计算机技术,好解决大数据分析中的生活自理问题。但是,我认为这不应该成为一个统计学发展的重要方向。为什么?基于两个判断。【1】这条路似乎没啥希望。因为,在这条路上,同计算机专家相比,统计学工作者,没有半点优势。我们输在起跑线上,还不是一点半点。【2】随着计算机技术的进步,现在认为很复杂的(例如)分布式存储和计算,将被一些成熟的软件产品极大地简化,甚至傻瓜化。如果是这样,相关的计算机理论知识(例如:Map-Reduce)就不必要了。更进一步地解释一下【2】,我为什么相信它?首先,我相信市场的力量。市场上绝大多数数据分析工作者,不具备大数据存储计算的专业知识,比统计学者还要差。因此,傻瓜化的大数据分析产品,一定是市场热烈欢迎的产品。其次,在我的周围,已经看到几个优秀的创业团队,他们正在这个方向努力前进,进展可喜!因此,我认为,在大数据相关的计算机基础知识方面,要积极投入但要有限度。对现有大数据计算机技术(例如:并行计算)的盲目跟进,不会成为统计学发展有前途的方向。

第二,那么,统计学发展的方向应该是什么呢?我们不妨看看,在海外极其成功的生物统计学,它为什么发现的那么好?想来想去,就一个原因:生物统计学家懂生物医学知识!具体解释一下,国外的生物统计系一般设立在医学院,或者公共卫生学院下面。独立的生物统计系似乎没有听说过。这样的学科设置,保证了生物统计学者,会花很多时间去跟医生科学家等沟通。因此,他们学会了生物医学的专业语言,也就是我们常说的:业务知识。这使得生物统计学家,对生物医学研究的贡献独特,很难被替代。如果我们对生物统计学的理解是正确的,那么未来,统计学发展的正确方向应该是:学习并积累基于不同行业的业务知识。只有这样,我们才能同不同客户,根据他所处的行业,自由沟通。我们才可能了解需求,创造价值,并为统计学开疆拓土。沿着这样一个逻辑,大胆设想一下,类似于生物统计学,我们是否可以有互联网征信统计学?量化投资统计学?物联网(车联网)统计学?旅游交通统计学?我认为这才是统计学发展的前途所在!

战略选择2

总结一下。我认为统计学发展的未来,不是对现有大数据计算机技术(例如:并行计算)的盲目跟进。而应该是:学习并沉淀基于行业的业务知识,让统计学深入商业实践的各行各业(例如:物联网),为统计学的未来开疆拓土。

王汉生教授现任狗熊会会长、北京大学商务智能研究中心主任、北京大学光华管理学院商务统计与经济计量系系主任。现为 ISI, ASA, IMS, RSS, ICSA 会员,ASA 会士 (2014 年 6 月 23 日更新)。王汉生

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 狗熊报告之一:社交网络数据分析与应用 COS 访谈第 19 期:张志华教授 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK