COS 访谈第 22 期: 李丰老师

李丰 / 王小宁 / 张心雨

审稿：成慧敏；采访者：王小宁张心雨

李丰，博士，中央财经大学统计与数学学院，副院长，硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事, 中国统计教育学会高等教育分会副秘书长, 曾任 2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人，曾获得 The 2014 Cramér Prize 等重要奖项。著有《大数据分布式计算与案例》等书籍。

小宁：请李老师谈一下自己的求学经历，以及当时为什么选统计学这个专业？

李老师：这个故事很长，我 2003 年高考，那年据说是数学最难，当时考坏了好多人。那年考人大好像统计学专业录取分数最低。(当然现在不一样了。) 我刚入学那会儿，吴喜之老师给大家做新生入学指导时说：“有的家长过来找我，说我们家孩子为什么不去学会计，为什么来学统计？” 那会儿大家对统计学还不是很认同，而且当时还只是人大的统计系，后来才变成统计学院。我 2007 年本科毕业后就去了瑞典，在斯德哥尔摩大学拿到了博士学位，在那里呆了六年，2013 年秋天回到中央财经大学统计与数学学院当老师。攻读博士时主要研究方向是贝叶斯统计，在这期间我还搭建了自己的博客 feng.li。

小宁：您也在这个五校联合的大数据项目中教了 3 年计算机相关的课程，您最大的体会是什么？

李老师：首先，我认为我们的学生质量特别好，这对我们的老师挑战很大，这是我最大的心得。第二个就是，之所以要做大数据项目，一方面是由于我们受到国内互联网发展的驱动；另一方面是因为我们发现我们的紧迫感不强。我们经常觉得我们教的那些方法当学生走向工作岗位时就已经过时了，所以我们总是有一种落后的感觉。每次和业界专家聊天，我就会问他们：“我们教的大数据是不是你们说的那个大数据？” 以上是我们特别大的两个心得。然后还有就是，这个过程对我个人的教学其实也产生了很大的影响——从数据入手教学。不像传统的接受式教育，老师先上来展示一些公式和证明，然后找个 Excel 表格的数据，放到 Eviews 中跑出个结果来，让大家分析一下显著不显著；现在的逻辑是要反过来，先是熟悉数据，再就看你有什么工具，然后你能得出什么结论，之后怎么处理它。这样变成一个反过来的过程，是一个挺大的冲击。我发现我们给学生的问题没有任何标准答案了，每个人做的东西都不一样，每个人做出来的结果、对它的理解都不一样，大家对数据中每一个层面理解也不一样。

心雨：大数据行业发展这么快，我们目前所说的大数据是不是都是从业界来的呢？那我们想获取数据是不是得和业界保持密切联系呢？

李老师：对，一开始我的理解和你是一样的。所以说如果我们大学老师和业界没有任何交流，不了解人家业务和生产数据的流程，我们是做不了大数据的。后来这个理解慢慢有了更新，不是我们之前的理解不对，而是我们的思路更广泛了。我夫人从澳洲毕业之后回百度工作，另外我还有一些朋友在百度或者其他的 IT 企业工作。我就问他们：“你们百度有那么多的数据，你们的数据哪来的？” 后来发现很多数据都是他们自己积累的，他们积累的时间其实并不长，我们国家整个互联网的发展也就十几年，但是他们有大规模的持续性的积累，慢慢就成了大数据。如果我们能做类似的积累，那么即便我们从体量上达不到那么多数据，但是我们在某一个时间段内，是能够得到同样丰富的数据的。百度等互联网企业有很大一部分数据是用网络抓取工具抓取的。那你学会了这些抓取工具，是否就能够抓到你感兴趣的数据呢？所以到了后来，我有机会给我们的研究生教 Python 时，我就强调学生要有获取一手数据的能力。获取最新的数据后，用最简单的模型就能得到非常有趣的东西。当然前提是你一定要了解行业发展，要关注大家都在研究一些什么类型的数据。去年有段时间，大家很关心小微企业的信贷数据，这些数据是很敏感的，没人能得到这样的数据。但是作为一个科研工作者，没有数据是无法做科研的。我的一位研究生，她想做小微企业的行业分析，我让她自己去抓取数据。她发现有些 P2P 网站上有公开的真实融资数据供人查阅，于是利用 Python 很容易地就抓取了将近几万条第一手最有意思的公开数据。这些 P2P 企业，为了吸引人们去他们平台融资，会实时展示他们的案例，我们就把这些信息给获取下来。她拿到之后做最简单的描述统计，便得到了很多有意思的结论。

小宁：五校联合的项目基本上就是针对研究生的，您对本科生学统计有哪些建议呢？

李老师：我想这是针对不同专业的。如果你本科学统计相关专业，那么你就应该补一下那些传统统计不会教的课程，比如说一定要加强计算机的学习，要熟悉编程语言。再就是要有洞察数据的想法——我想解决什么问题？我需要什么数据？这个数据在哪里？我从哪种渠道能够合适合理合法地得到？如果是学计算机的，我想应该反过来，因为学计算机的更关注计算机语言和特别底层的东西：数据结构或者硬件，但是他们缺乏对数据的理解。就是说我们现在即便给他们 2G 或 5T 的数据，他们对数据的信息和价值理解还是不充分。你能不能做统计学相关专业能做的一些东西？能不能做一些简单的分析？而不是仅仅的在 SQL 来回调用数据。还有一些做新闻财经的同学，这些人如果想理解大数据，我认为他们没有必要死抠技术，什么是 Hadoop ？什么是 Python？什么是 Spark？这些都不必去研究学习，他们更多的切入点是 “要从数据说话”。要做到任何一个论证，任何一个观点都得有数据支撑。对这样的同学，你把“大数据” 前面的 “大” 字去掉，，一切从数据入手，这便是好的开端。本科生不需要学会多少大数据分析工具，但是你要学会获得第一手数据，要从数据入手思考问题。

小宁：作为科班出身的统计工作者，我们和学计算机的相比优势和劣势分别是什么？

李老师：先说优势，因为我们学统计的对模型理解深刻，方法解释清楚，这是我们的优势。我们对数据有比较敏锐的洞察力，看到数据能有点感觉，同样这也是我们的优势；而劣势体现在当我们数据特别庞大的时候：我们不能够像往常用 Excel 那样滚屏，不能够通过简单的一个直方图来描述了。由于现在大数据的发展，毕竟它是一个从零到一的过程，很多最基础的工作，是需要一些底层的计算机支持的。我们做统计的往往只有当用计算机把这些路都铺垫好之后，我们才能够做好统计分析工作。但现在很多路是崎岖不平的，我们并不知道哪条路更好，甚至我们都不认识这些路。我们对这些底层的计算机工具不够熟悉，不明白他们的接口，不知道企业创造生产出来的数据是以什么样的形式呈现给我们的。那么即便你有特别好的模型，特别好的解决思路，但是你的方法还是对接不到别人的系统上，这是一件很悲催的事情；再就是我们对业务流程不熟悉，我们不懂数据从生产到呈现这个过程是如何发生的。传统的统计教育，我们只知道给我一个 Excel 表格，我能够加载到 R 里面做个模型。但是如果说人家数据现在存在 Hive 里面或者 HBase 里面，是分布式的，你都不知道怎么把它拿过来，更别提做出什么模型了，这也是我们的劣势。相对做计算机的而言，他们是正好和我们相反的，他们对底层的东西，特别特别敏感，大数据的计算机框架是他们主导的。他们对数据怎么存储、如何进行分布式计算感到一点都不难，他们有这种训练，但数据存到那之后的开发基本上是停滞了。一个不愿意看到的现实是，我现在问一些互联网企业，我说我们的统计的人去那能干什么呢？他说我们做的更多的一些工作是查询，你用 SQL 这样的工具查询一些部门感兴趣的数据。我们学统计的本应该要对数据做更深入的剖析，可是苦于我们和这些大数据系统语言不通，只能哑巴吃黄连。

小宁：现在大爷大妈们都知道大数据这个概念了，今年比较火的概念如 VR、深度学习和人工智能，您对这些概念有什么看法？

李老师：我感觉不管是 VR 还是大数据，它从一时的兴起到特别火到冷下来，都要经历这样一个过程。往往是一个概念的提出之前，有很多很多特别基础的工作，计算机和统计的人做了很多工作，然后把这个工作展示出来之后，媒体就会跟上。媒体认为这是我们社会发展的重大发现，这是关系国计民生的大事件，他们就会不停地推动这件事情。媒体的推波助澜，让更多的人明白大数据是怎么一回事。当然媒体吹捧一件事情一定会有一个高峰，过了这个高峰之后，媒体和观众就会疲劳，他们再去找一个其他的主题去吹捧，所以很多人把这个曲线叫做 “媒体吹捧曲线”。由于媒体的吹捧，我们很多底层的工作为大家所了解，这是好的事情。尤其在中国，我倒不认为大数据概念是让所有人都开始做大数据，而是让我们所有的人从今天开始认识到，你做任何事情，要以数据为支撑，而不是我们传统的拍脑袋做决定的这种思路，这是一种特别大的变革。当过一段时间之后，我们的产业跟上去之后，大家开始觉得这是个正常化的事情。媒体也就不关心这个事情了。如果现在我们学习 Hadoop 就像我们之前学 R 一样了，自然而然就不需要很多人帮你吹嘘了。我想如果把这个逻辑也套到 VR 上面同样适用，它会带来我们生活的变革。但 VR 和大数据会带来不同层面的变革，从我们解决问题的思路，到对我们生活的方便性都提供了不同的帮助。

小宁：您在人大读书的时候也参加过我们统计之都举办的 R 会，您对我们统计之都的发展有什么建议吗？

李老师：统计之都发源于人大，生根于人大，然后逐渐变得特别特别火。10 年了为什么统计之都还是这么火，是由于他的无私性还有他的公益性，这从我个人看是特别特别赞的事情。为什么我们每年的 R 会议这么多人参加？统计之都的公众号会有这么多粉丝？我认为是因为统计之都的定位比较准确，就像统计之都的口号 “专业、人本、正直” 一样。，让不同的人能从统计之都里面找到不同的需求。对于我们刚入学的本科生，统计之都对他们有思想上的引导，让他们从数据层面理解数据和案例，让他们明白，数据是有趣的，统计是有用的，是大家都可以学习的。再就是让大家对统计有一种亲切感。其次就是坚持他的公益性。我们能不能做成统计的 “科学松鼠会” 呢，对于一些比如说媒体上经常误报的数据、错误的解读，明显是有错误的解读，我们能不能剖析一下，以一个专业的方式用通俗的语言让大家明白呢？但是这个东西其实它要求很高，需要用浅显的语言，把复杂的问题给大家讲明白，让大家知道这个事情应该怎么做，不能怎么做。就像我们本科时候学置信区间，我们说它是频率不是概率。我们讲了多少遍，仍然很难理解，那你怎么能把这个事情让普通大众明白呢, 我认为这就是我们要解决的问题。再就是坚持推广从数据说话是我们不变的原则。最后祝统计之都越办越好，多带年轻人进来，做的越来越精。

中国人民大学统计学院博士，喜欢跑步，研究兴趣为抽样技术和机器学习。王小宁