3

COS 访谈第 23 期: 尹建鑫老师

 3 years ago
source link: https://cosx.org/2016/11/interview-jianxin-yin/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

COS 访谈第 23 期: 尹建鑫老师

尹建鑫 / 王小宁

校对:王佳

【COS 编辑者按】受访者:尹建鑫 采访者:王小宁 校对:王佳

尹建鑫 中国人民大学副教授,2009 年在北京大学获得博士学位。2009 年至 2011 年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011 年 8 月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上(Annals of Applied Statistics, Journal ofMultivariate Analysis,Statistica Sinica)及 Journal of Machine Learning Research 的 W&CP 系列中。曾多次参加国际、国内学术会议,做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛 “最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015 年获教育部第七届高等学校科学研究优秀成果奖(人文社会科学)统计学三等奖

avq550gnetmkc7tlser8

小宁:请问您当初为什么从物理专业转到数学专业呢?

尹老师:其实本科的时候,我的第一志愿填的是数学。在我高考的前一年,数学分数线没那么高;到了我们考大学那年,也就是九九年的时候,分数突然上来了,结果我跟数学专业差了三分,就因为这三分的差距,我被调剂到了第二志愿的力学专业。其实力学不算是物理,它以前叫数学力学,莫斯科大学叫力学数学系,咱们国家叫数学力学系。力学基本上就是物理的前面,跟数学结合的比较紧,它后面发展起来的那些工具,主要还是应用数学、计算数学这些工具。很多人对力学的理解可能还停留在各种各样的力场,当时我同宿舍的一个同学,他是河南省某县的第一名,他报专业的时候还以为力学系是学习量子力学的,结果发现学的是各种力学,但是不学量子力学,因为量子力学其实算是近代物理。北大力学系对数学要求特别高,做的基本上是计算数学和应用数学的内容,如果你想做的偏理论一些,像湍流流体力学、结构应力,这些都是偏微分方程;如果做计算流体力学(CFD),那些计算流啊什么的,就算计算数学。所以北大数院像张平文院士他们虽然是计算数学系的,但做的其实跟力学系有很多重合的地方。

小宁:既然您喜欢数学,为什么又转到统计学专业了呢?

尹老师:这是一个比较偶然的机会。我是从大二的时候,去理论生物学中心(Center for Theoretical Biology)做一些辅助研究,现在那边已经出来好几个院士。当时力学系有一位老师,佘振苏教授,他是国家湍流重点实验室(一个重点国家级重点实验室)负责人。我一开始想跟他学湍流的,当时对流体力学特别感兴趣。他当时带了很多人,比如像当时他的博士后朱怀球老师,后来留校任教,现在已经是教授了。那时他的研究重点是基因序列的预测,就是预测哪一段是 coding,哪一段是 uncoding,用的全部是计算的工具、计算的方法,那个中心没有一个人是生物的背景,但是却叫做理论生物中心,真是一个非常神奇的地方。我那时觉得研究这种序列也好,这种生物数据就需要大量的运用随机的方法,我就想从最根本上去理解这件事情。我当时正在申请出国,但申的都是流体力学,感觉自己还是需要转一下专业。但是出国的时候转专业其实是很不容易的,所以我就开始准备考研,2004 年考到北大数院,才去读的概率论与数理统计这个专业。

小宁:您从力学数学转到统计学,在统计学学科里已经很有建树,在当前的大背景下您对现在统计学学科有什么看法吗?

尹老师:其实我觉得统计学现在已经走到一个关口,面临着一场变革。现在的统计学专业,我估计将来可能会变成两个方向的结合:一个是沿着理论方法方向,它变得越来越数学,越来越理论化,可能需要很深的数学、信息学的工具;另一个方向就是结合各个行业,有非常深的专业背景的统计方法或者统计的应用。就大数据而言,我觉得两个方向可能都会涉及到,因为大数据涉及的数据量大了,整个的方法理论体系都要更新;沿着另一方向发展它需要有深厚的专业背景,可能跟某一个行业结合的非常紧密。

小宁:您觉得我们单纯学统计出身的人,与计算机专业的人相比,我们的优势跟劣势在哪里呢?

尹老师:虽然我们有一定的优势,但是现在计算机专业那边,其实他们的训练一点都不比我们差,统计知识这块的短板他们也在补,但是补的程度可能不一样。我感觉我们的优势在于更注重统计方法的正确应用,比如说一个正常的模型需要在一定的假定下才能适用一定的方法。我觉得有些计算机发表的文章,虽然用的是随机的方法、统计的方法,但可能并没有非常严肃的探求这些条件是否满足、这些假设是否成立。我们的劣势也就是他们的优势就是他们动手能力非常强,转化的速度非常快,基本上一个方法,只要看明白几个关键的步骤,他很快就能用计算机实现,然后很快的就上战场了,一下子就出结果了,这就是他明显的优势。你看各种前沿的方法,可能在计算机的会议上早就出现了,但是后续的系统研究和模型理论可能会滞后一些。

小宁:请问您最近主要的研究兴趣是什么?

尹老师:最近我手里有两个项目,一个是关于决策树(Decision Tree), 我们想发展一种新的方法,与决策树类似但又不完全一样。比如说一些变量会影响一个结果,但是这些变量可能是超过一定值以后才产生一个影响,就像那种脉冲式的影响。其实这也是我们在现实中总结出来的一个现象,2013 年左右我跟吕老师一起做了一个艾瑞咨询的项目,分析手机监测的数据。当时我的一个学生发现,如果我们把每一个 APP 每个用户使用的频次或者下载量离散化以后再去预测它的流失与否效果会更好一点。本来它是一个连续变化的,那个序列是一段连续的曲线,但是如果说我们把它离散化成某个水平,比如说超过 50、小于 50、或者简单的说多少量为一个单位,这样这个预测效果明显会好一点。换句话说,就是当你模糊化以后去预测模糊化的东西效果可能会好一点,我当时就想能不能有一个一般的理论,就相当于我们现在在回归分析里边,用预测变量的时候可能不需要用的那么精细,也许就是说有一个脉冲的效应,我们起名叫 Threshold regression。这是我目前想推进的一个研究。还有一个来自于实际数据的研究,是跟中医科学院的杨伟博士合作,主要是如何针对不平衡的数据进行预测。其实这方面目前已有很多研究了,但我们想通过随机抽取或者随机比较的方法。主要研究兴趣基本上还是在以前传统统计不太关注的数据类型的分析上,以及结合高维数据。

小宁:现在人工智能和 VR 都被炒的很火,在目前这种大环境下,您觉得我们就是作为统计专业学生、科研人员还有从业人员,应该如何发挥自身的优势呢?

尹老师:我觉得 VR 更前端更直接的技术可能还是跟计算机图形、触觉传感器等比较相关,里面会有一些统计方法,但那是比较间接的。比较直接的像人工智能,像现在谷歌有很多算法,包括前一段的 AlphaGo,猫脸识别等,可能会需要在大量有监督的学习里去识别模式。这其实是对统计很直接的冲击,因为以前无论是做 AI、做机器学习 (Machine Learning) 或者做统计的人,基本上还是从数据模型、从算法这些角度去开发模型一步步来做,但是你看最新的机器学习的文章,你会发现她是基于深度学习(Deep Learning)这种大规模计算密集型技术。有的人可能觉得这是一种威胁,但是我觉得我们应该保持开放的心态来面对这种变化。现在在很多问题上,深度学习表现很抢眼,它比其他一般的已知的方法要表现突出一点。我觉得应该这样理解,现在计算机专业的人因为手快并且他们实现能力非常强,他们已经观察到这个现象,但是我相信,如果他们想继续往前走得更远,就需要理解一下背后的机制,而且深度学习模型缺乏特别好的解释性,这些问题其实都是统计人的机会。因为学统计的人是从数据的假定出发,然后推导背后这些有原理性的东西,带有人类可以理解的机制在里面。就像四色定理虽然用计算机是可以证明的,但是数学家还是希望能以一个人类能理解的方式去理解它,深度学习现在是最前沿的机器学习技术了。在它的灵感的触发下,统计学家可以结合它的成果和表现,去改进我们统计上的应用。深度学习主要包括特征工程(feature engineering)和表征学习(representation learning),对于我们原有的统计方法、高维模型的改进具有很好的启示。我觉得做计算机研究的那些人很重要的一个制胜点就是能把一个复杂纷繁的现象中、不同层次的特征(feature)学习出来。而其实统计里边,我们以前都假定数据在那,不用再提取特征,所以这个其实对我们是一个很好的启示。当然深度学习能从这种参数量非常大的系统中获胜,这背后的机制是不是有某种大数律存在,这也是非常值得探索的,我听说现在北大的院士还有伯克利的郁彬老师他们也都在探索这个。我相信在不久的将来,可能会有一些阶段性的成果。

小宁:请问您平时业余时间喜欢做些什么?

尹老师:其实现在我的业余时间已经很模糊了,我是指工作时间与业余时间的边界很模糊。有了小孩以后,我周末两天基本上就是带孩子嘛,陪他玩或者看着他;现在由于工作时间很紧,我一般一天用来带孩子,另一天还可以来学校加班。

说到业余活动的话,我最近戴了一个手环,天天在微信运动里面看我的排名,督促自己多走一走;另外,我最近参加了工会组织的午间课堂,报了一个太极拳班,我觉得好好学习太极拳,对调养身体可能会有一定的帮助。劳逸结合很重要。

小宁:刚才您谈到了孩子,我们就聊一聊孩子这个话题,您有没有从小刻意培养他统计方面的一些知识,比如统计科学编程和统计思想呢?

尹老师:我的孩子还比较小,他还没到上学年龄,所以你说的这些肯定是还没有的。我也没有刻意的培养,只不过平时遇到日常生活中的一些现象,比如他有什么问题我都会给他耐心的解答。我会注意培养他思维的逻辑性,但是还没有上升到统计这么高的高度。我觉得对小孩来说,没有必要把这么细分的科学早早地告诉他。比如说在一个物理化学的环境下做研究,他可能自然而然会生长出来一些统计的问题。所以我觉得更重要的是培养他一种对科学的兴趣,然后一种正确的思想。

小宁:最后一个问题,请问您对统计之都还有统计之都的小伙伴们有什么寄语吗?

尹老师:我觉得你们非常了不起。你们纯粹是凭着个人的兴趣、热情以及大家的奉献精神结合在一起,能产生这么大的凝聚力,真的非常令人钦佩。同时你们也做了很多有意义的事情,包括传播统计学的知识,我经常看你们发的一些文章,比如解读贝叶斯、介绍数据模型等等,我觉得这些都非常有意义。我的寄语就是希望你们将来越来越好,为中国统计美好的明天贡献出自己的力量。

小宁:谢谢尹老师。

中国人民大学统计学院博士,喜欢跑步,研究兴趣为抽样技术和机器学习。王小宁

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 降维攻击:目标,比率指标 共轭梯度法计算回归 →

发表 / 查看评论


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK