7

COS 访谈第 3 期:易丹辉教授

 3 years ago
source link: https://cosx.org/2013/07/interview-of-yidanhui/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

COS 访谈第 3 期:易丹辉教授

易丹辉 / 陈堰平

关键词:COS 访谈; 数据科学

受访人:易丹辉教授

简介:易丹辉教授是中国人民大学统计学院的教授,博士生导师,主要从事统计方法在经济、金融、保险、医疗、管理等领域应用的研究。具体介绍参见学院网站 。本文根据易老师的邮件回复和采访录音整理而成,如有不当之处,责任都由编辑承担。

我的学业之路

1966 年高中毕业,准备高考之际,突如其来的文化大革命终结了我们的大学梦。1977 年恢复高考,我考入呼兰师专数学专业,1981 年考入中国人民大学统计学专业读硕士,1984 年毕业留校任教至今。

说起进入数学专业学习,既是偶然也有其必然,尽管我从来没想过要学数学。1977 年高考,黑龙江省要考两次,先进行初试,我考虑十年没有摸这些数理化书本,选择了报考文科。初试结束体检时一个同学色盲,考理工科受限,他知道初试数学成绩我是全团第一,提出要和我换,于是我成了理科考生,又因为复试数学成绩,被送进了数学专业。后来才知道,我报的所有学校和专业都不招收我这么大年龄的农工。

学习对我来说没有问题,可是学出来做什么,却是一个需要考虑的问题。当老师?继续深造?还学数学,学完做什么?我带着满脑子疑问和教我们概率的高洪英老师聊天。当时正值国家改革开放,我总觉得学出来得有点什么用才有意义。

高老师了解到我的心思,告诉我:可以学习统计。统计,对我来说一个毫不知晓的领域,但却开启了我追求的另一扇窗,成为了我一生致力于研究的方向。为报考统计的研究生,1981 年初寒假,我来到在武汉财经学院任教的庭叔家。他领我见了统计系的周兆麟老师。很短的时间,他不可能给我讲解什么是统计,但他告诉我:有了数学基础学统计没有问题。虽然我对经济一窍不通,但他的鼓励成就了我最终选择报考中国人民大学。因为徐前和唐寅老师的开明,没有将我拒之门外;因为导师王文声的精心,将我引进了预测之门。

我欣赏运用数据说话、解读实际;我享受遨游在数据中间,探寻其背后奥秘和规律的快乐;我喜欢统计中那富含的哲学理念,随时随地教会你用客观的眼光看待世界、看待自己。

你想过为什么所有统计模型的随机干扰项都要求?正态分布是因为其优良性质对于很多推断的证明有益;独立是因为需要将所有有用信息都反映在模型中而不能被放弃;同方差则告诉我们只能在同质的条件下建立反映量变规律的模型。许许多多模型不就是因为解决异方差才应运而生吗?!想想这里有什么哲学啊?

我的研究之路

我的研究兴趣其实在不停转移,我刚来人大的时候还不太了解这边的研究方向,结果来了以后发现是经济统计,我导师研究的是工业统计,由于以前下乡在农村工作,刚开始对工业一窍不通,所以每个假期都往工厂里面跑。然后我对整个工业的生产流程,工业统计在工业生产中的作用以及都做什么等等有了足够的了解。在研究生快毕业的时候正好赶上全国第一次工业普查,尤其是关于乡镇企业即村办企业的统计。我们当时还不太了解,后来在国务院工业普查办公室实习的时候,他们需要下基层了解一下,我也跟着去了。主要去了江苏三个地方,有无锡、苏州,还包括华西村。去了之后发现某些村办企业规模相当大,这样的村办企业不是农业,应当纳入工业统计。当时我们用了一个抽样的方法,其中包括决定村办企业在什么样规模以上的是应当统计为工业的。

毕业以后我就开始做一些预测类的事情,主要是经济方面的,讨论一些预测方法,涉及到时间序列、回归等方法。后来我又做金融,其中又主要是做金融风险这块儿,因为这个领域的统计方法用的比较多,做一些金融风险分析,前面说的预测我也一直在做。精算也做,但是不多,包括一些风险管理、保险行业的研究。关于金融、保险、金融风险分析,在一些国家自然科学基金项目中我与很多金融界的学者有一些合作。但是由于我这个人不太爱跟踪政策,然而在做金融的时候,你必须对政策层面的东西把握的特别好,不能只是就数据说数据,你必须对数据的背景特别了解。比如说,当时要出台涨停板制度,涨停板制度主要起什么作用,为什么有些股票要停牌。我分析公司在金融市场上的业绩和它本身财务的业绩,发现两者背离,所以我认为金融问题光做数据不行,必须对背景特别了解,而这个方面不是我的强项,我就有点不太想做了。

大概九七、九八年的时候,中国质量协会在做一个满意度研究,从美国引进的体系,他们当时就来找了我,其实我当时对结构方程模型一点儿也不懂,但是他们跟我讨论的时候,我看了那些东西以后,我就大概知道什么意思了。关键是对参数的估计,他们用的是偏最小二乘,而我对偏最小二乘从未接触过,但是我觉得很有意思。结构方程模型还能处理多个原因、多个结果的关系,跟以前的回归还不太一样,我觉得这是一个挺有意思的事,所以后来也是和他们一起在研究,从美国弄了一些文献。我在结构方程模型上也衍生出了很多成果。

后来 2003 年爆发了 SARS,某医学院采集来了一批数据,找我做分析,我一看这挺好,挺有兴趣,所以从 03 年开始,我基本就主要做生物医学方面的统计。我觉得生物医学统计很值得做,而且很有意义,也可以用到很多的新的统计方法。这个数据和时间序列不一样,时间序列的数据时间单位是固定的,而且数据涉及时间长,而这个数据很短,大概就那么五个:该开始的状态,七天以后的状态,十四天,二十一天,顶多再到出院,就这么几个点,而且不是每个人都有。利用个体的资料来看整体的效果如何,即中医治疗介入以后会不会对治病有没有帮助。当时我给我美国的一个学生发了 email,他说这可以用纵向数据的方法,然后我们就找了一堆的文献,开始讨论,用 SAS 编程,实现,美国那边也给我们发了些程序,然后我们就热热闹闹开始做了。然后在此基础上,我做了很多纵向数据的研究。

在做医药统计的时候,涉及到多中心问题,即在临床试验的时候不是在一个医院进行。多中心就会产生中心效应,不同大夫,不同医院等等影响。在国外,一个医生大约两三个病人,但是在中国,一个医生大约十来个病人。这样一来。每个医生对十几个病人,医生之间的观察肯定是有差异的。而在国外,一个医生两个病人,随机性比较大,医生的作用就不是很明显。所以后来我们就用了多层线性模型,我发现这个模型应用的地方也很多。从模型来看,很多模型都是从最经典的线性回归模型开始,而经典线性回归模型有很多的假定,在实际问题下这些假定不能很好地满足,使用的时候肯定会出现问题,所以模型就越来越发展,扩展出了很多。

从研究方法上,我觉得模型方法很有意思,当然描述统计也挺有意思。描述统计虽然用非常简单的方法,但是能把数据的一些初步的规律揭示出来,然后让你能看到,它们之间有些什么样的关联,有些什么问题,然后你会再对这个数据做深入一层的分析,这样也挺不错的。所以现在我的研究兴趣在方法本身怎么解决实际问题上,然后领域呢,可能主要是对生物医学这方面。这个跟人比较接近,政策因素影响很小,数据背景也很容易掌握。

原来我们的药检都是仿制的,安全性,有效性,都是国外的。但是某种药物用在白人和用在中国人上有什么区别,这还是值得考虑的。现在国外的药物大规模进来以后,国外的药厂也开始重视这一块,所以我们也开始重视。原来药监局也没有统计部。所以我觉得应用的领域还是挺多的,包括现在的大数据,数据采集越来越容易了,数据量大了怎么做?如何挖掘有用的信息,包括如何采集有用的信息,如何设计,我们可以相辅相成把,我们通过统计分析,提供一些建议,然后对网络也好,数据采集部门也好,使他们采集的数据更有用。

数据科学和统计学的一些看法

大数据时代给统计学最大的一个挑战就是经典的统计方法要解决的所谓的大样本,号称是 n 趋于无穷,但实际上一般的样本量还是少,样本量达到三五十的这种还可以,三千到五千,有些经典的方法就很难做。如果维度高,变量多,传统的统计方法就很难适用,因为经典的统计要求没有共线性,但是这么多变量拿进来后你怎么知道它们没有共线性,很有可能是共线性的。像咱们做经济问题,你选十个变量,就很难保证它们没有共线性。所以这些问题可能是经典统计方法有它很好的基础以后怎么去发展,面对这样一个大数据,这都是很重要的。

统计学本身就是要从数据中来发现和寻找它的规律,这就是统计的本质嘛。所以我们统计的方法也要随着大数据的需要发展,不能固守于原来的方法。所以你看现在贝叶斯的方法为什么发展的这么快,原来贝叶斯的方法没法实现,你没有计算手段,现在有计算手段了,计算机提供那么多工具,那么贝叶斯的方法就可以用了。随着时代的变迁,人们对这个现象的认识要求越来越高,然后能给你提供的信息也越来越多,我觉得只要一说数据肯定离不开统计,但是一谈统计你不能老是经典的那点统计,所以统计必须发展。

我觉得大数据对传统的统计是一个挑战与机会。数据量大,我们很难做一些比如正态性的假设,但是从这样大量的数据中只要能找到规律,它肯定有它的科学依据。统计一方面是要去了解和认识这些方法,同时你也要创造些方法。当然后面的背景,能不能从理论上证明它,我觉得这里的证明不像原来的解析式推导证明,它可能是通过其他途径,比如模拟。通过大量的模拟通过交叉验证也可以用来证明你的方法的科学性。又比如说假设检验,如果我们真的能模拟,模拟出它属于某种分布,我们就可以构造一个统计量来做检验。随着科学的发展,计算能力的提高,人们对这个问题的理解的加深,也说不定有人能构造出来。或者说检验的方法需要换一个思路。我们还是需要去论证它的科学性,因为任何一个方法,它要科学它必然是带有一般性的。现在有很多方法,使用它以后,人们不知如何去论证它是不是科学的,将来做理论的人可以考虑这方面。我们现在做理论的人,做统计的人没有跟上这个变化。随着时代的发展,肯定有越来越多的人进入到这个领域,包括现在有一些人在做贝叶斯。线性回归最开始也只是从父母身高子女身高做起的,当时也很简单,也没有做很多东西。但是只要探讨出这个东西,它肯定会慢慢发展的,我觉得就是要一步一步走。

所以现在我觉得学统计的人特别缺一个统计计算的课程,好长时间以前我就说我们统计学院应该开这个课,来了解统计计算,还得把这门课设计好。因为数据量大了以后,方法也不同了,计算量大,传统的方法做不出来。如果你没有统计计算或者说算法的这种支持,有很多东西做不了。统计也是善于接受别人的,也善于合作,因为做计算机的人,他们有他们的长处,但是他们也有他们的不足,他们的统计思维,不如真正学统计的人。但是人家走出一条路来,我们应该跟人交流然后吸取人家的长处,互相取长补短,这是挺好的。我们现在也有一些计算机专业的学生过来学统计,他们也觉得很好。

我的业余爱好

我从小什么都喜欢,只要觉得有意思,不会的,都愿意去尝试:学口琴、舞蹈、体操;进什刹海业余体校游泳队、北京市少年宫射击队、东城区少年之家航模队、学校排球队等等;搞创作、搞表演等等;这些虽然都极业余,但却锻炼了我,让我不惧怕学习新东西,造就了我敢于大胆尝试的性格。这也为我选择研究方向奠定了基础,只要有用、值得研究,我都会尝试。实际上我最持久的爱好还是读书,读各种书籍,读生活这本书,读人生这本书。

对统计之都和统计人的寄语

统计之都不错啊,你们这帮人挺肯干,坚持这么多年。有人愿意做,而且能坚持做下去,我觉得很不容易。所以贵在坚持,不停地思考,不停地发展,可以做的越来越多、越来越好,现在效果已经出来了,R 语言会议也越办越火。而且现在数据量越来越大,大家都知道了,应该拿这些数据做点儿什么,用 R 就是用的一个工具,但是你们还是要关心数据处理的手段方法。所以我真是觉得你们这个做的挺好的。

无论是否在学习统计,无论是否在作统计,具有统计的思维,会让你受益匪浅!

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← R 利剑 NoSQL 系列文章 之 Hive R 利剑 NoSQL 系列文章 之 Cassandra →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK