十字路口的统计学: 谁在应对挑战？（三）

Xuming He / David Madigan / Bin Yu / Jon Wellner

译者：吴喜之；编辑：向悦、雷博文

本文翻译自 2018 年 10 月 15 日至 10 月 17 日在弗吉尼亚州举行的 “十字路口的统计: 数据科学时代的挑战和机遇” 研讨会报告。该报告由 Xuming He 组织并由指导委员会（成员为 James Berger， Xuming He， David Madigan， Susan Murphy， Bin Yu 和 Jon Wellner）审核，由吴喜之老师翻译，已得到译者授权。本翻译工作首发于统计之都网站和微信公众号上。

报告正文由 “统计和数据科学的作用 / 价值”、“科学和社会应用中的挑战”、“基础研究”、“专业文化与社区责任”、“博士教育” 五部分组成，计划分三期推出。第三期内容为第四部分 “专业文化与社区责任” 和第五部分“博士教育”。

4. 专业文化与社区责任

统计学作为一门独立学科的建立与 19 世纪初的科学发展紧密结合在一起 (例如，达尔文的进化论、农业设计)。进行了基础数学工作，以实现对经验上有用的诸如最大似然方法的特性的概括和研究。在最初的发展之后的几十年中，该领域与这些特殊的数学发展保持一致，并且与实践的联系排在了后排。引用乔治 · 博克斯(George Box) 的 1976 年费舍尔演讲:

一群人可以保持相当的快乐，玩弄一个可能曾经有意义的问题，并提出永远不会暴露在危险的实用性测试的解决方案。他们喜欢在会议上互相阅读论文，而且他们通常很不冒犯。但是，我们必定要遗憾的是，宝贵的人才在历史上可以被善加利用的时期就被浪费了。

—— George Box(1976)

在过去的几十年中，我们已经开始通过跨学科研究和一般的应用统计来回归领域根源 (Cleveland，2001)，但是变革的步伐并未跟上快速发展的以数据为中心的世界。

为了使该行业在数据科学及其他领域中发挥领导作用，需要更快地进行文化变革。正如 Breiman (2001) 雄辩地指出:

使用统计建模从数据中得出结论有两种区域性。一种假设数据是由给定的随机数据模型生成的。另一种使用算法模型，并将数据机制视为未知。统计界几乎毫无例外地一直致力于使用数据模型。这种承诺导致了不相关的理论及可疑的结论，并且使统计学家无法研究大量有趣的当前问题。无论是在理论上还是在实践上，算法建模都在统计领域之外迅速发展。它既可以用于大型复杂数据集，也可以用作较小数据集上数据建模的更准确和更有意义的替代方法。如果我们作为一个领域的目标是使用数据来解决问题，那么我们需要摆脱对数据模型的排他性依赖，而采用一套更加多样化的工具。

—— Breiman (2001)

问题不在于随机模型或生成模型本身。如果此类模型通过经验证据产生实际影响，则应予以赞扬，尤其是如果这些模型在其构造中考虑了领域知识并具有计算上可行的算法。这样的模型也是有用且至关重要的，特别是对于研究和理解经验上成功的、并且在为稳健而在多类生成模型下优先研究的算法 / 方法。但是，在实践中，通常情况并非如此，如果没有经验支持，这种方法就非常成问题。

虽然数学，计算和统计原理对于理解统计和数据科学程序的操作特性必不可少，但要想解决现实世界中的问题，就必须沉浸在相关的领域。引用 George Box 在 1976 年的菲舍尔演讲中所说的:“需要在理论和实践之间取得适当的平衡，最重要的是，统计学家必须学习如何成为优秀的科学家及必须通过经验和榜样才能形成的人才。”

我们的专业人士必须认识到，在新时代，我们的主要职责是开发统计和数据科学中的算法 / 方法和相关理论，以满足对科学，工程学和社会产生最大影响的数据分析需求。我们需要一种新的文化，在这种文化中，新一代的统计学家和数据科学家将受到培训并受到鼓励，以拥抱新的现实。为此，我们需要所有利益相关者，包括学术院系，专业协会和资助机构，共同努力，实现急剧的文化变革。

4.1 学术院系

学术成就是许多学术院系当前任期和晋升标准的一部分。但是，学术成就的评估传统上一直侧重于本领域公认的期刊上的出版物数量，而这种评估的重点过于狭窄，与我们领域的当前转变不符。评价中过分强调出版物的数量也不利于其健康。学术成就评估应强调质量以及工作对统计实践、领域科学和整个社会的影响。除期刊出版物外，我们还应使用更广泛的指标来评估学术成就，包括对我们的研究体系，基础设施以及对领域科学和整个社会的贡献的可衡量的影响。Waller(2018) 提供了有关数据科学相关研究在学术院系的文献记录和评估的建议，很明显，社区需要立即采取集体行动。

聘请多元化的教师对于我们职业的转变至关重要。评估潜在的新员工带来了巨大的挑战，因为它从根本上涉及对未来影响的预测。传统上准备好的学生呈现出较低的风险和更确定的轨迹。学术院系需要积极招募和培养从我们重新构想的博士课程中产生的新一代学生。并减少风险规避。多样性起着关键作用—未来成功的统计教授带头人必须反映多样性的许多方面，包括知识多样性。这需要协调一致的长期努力 (在聘用前后)，而我们的领域在过去并未做到这一点。

4.2 专业领导

我们呼吁更多的统计学家成为我们行业的领导者。统计领域的领导者需要做更多的工作，以将这一领域推广到广大的科学界和公共领域。这项工作以及系、校园和我们自己的专业协会中的领导角色，应该是我们专业中高级人员评估标准的关键组成部分。

统计学专业协会需要成为更有影响力的统计工作的有力推动者，并在统计学家 / 数据科学家，研究人员与其他社会以及私营和公共部门的科学家之间架起桥梁。我们专业协会的旗舰期刊需要扩大其范围，并有意识地从传统固有的研究领域转向新的数据科学研究。统计人员的领导和沟通培训严重不足，我们的组织应该在这方面有所作为。这种培训还应为统计学家为跨学科研究团队的领导做好准备。诸如奖项和研究金之类的荣誉应反映出对统计学的广泛看法，不仅要表彰传统的学术贡献，还应表彰领导才能、计算成就以及更广泛的科学或领域贡献。为了反映这种转变，社会需要获得更多的奖项。

全国和国际统计学会在大学和研究生层次的统计学课程的开发和重新构想中可以发挥更大的作用。它们自然也可以帮助在学术界、工业界和公共部门之间架起桥梁。联合统计会议是传统的聚会场所，各行各业的统计学家都可以联系到那里，还有很多工作要做。例如，在数据科学领域建立更广泛，更深入的行业 - 学术界合作伙伴关系可以极大地促进数据科学时代的统计研究和教育，但是目前这通常发生在单位级别。专业协会可以帮助促进联合体一级的努力。

4.3 资助机构

NSF 在传统研究资金中扮演着不可替代的角色，重点放在创新学科研究上，这为研究界提供了很好的服务。我们建议 NSF 的统计计划继续促进资助知识多样性。如报告前面所述，数据科学时代的许多研究领域都面临着重大挑战和机遇。资金的增加对于以下方面的发展至关重要: 空间主题数据分析、可解释的统计学习模型、个性化和集成推荐系统、时空数据分析、机器学习和因果推理的集成、预测的稳健性和稳定性等 / 预测和推论、数据隐私和公平性、基于代理的模型、约束优化、实验设计以及高效的深度学习算法。

NSF 统计研究和教育的资金主要来自数学科学部 (DMS)。NSF 预算的增长跟不上科学和工程界的增长，特别是在通货膨胀调整之后。这个问题在统计计划中最为明显和严重。但是，联邦对基础研究和劳动力的投资对于我们专业的未来仍然至关重要。统计计划需要获得更多的资金，以跟上学科的发展和进步，而统计研究的资金需要超出一项计划，因为统计创新在科学的广泛研究和教育领域中发挥着越来越重要的作用。例如，统计人员正在拥抱 NSF 的 10 大构想，尤其是通过利用 21 世纪科学与工程(HDR) 的数据革命。

为了加速统计数据的转换并造福社会，NSF 和 NIH 等政府资助机构需要加大投资，以支持将统计作为科学技术发展的重要组成部分的研究项目。美国国立卫生研究院资助的许多项目都涉及统计学家，它们通常扮演着支持 (但重要) 的角色。NSF 的一种成功的资助模式是 “数据科学原理跨学科研究(TRIPODS)”，其中统计学家和其他研究人员通过集成研究和培训活动的全面参与有助于发展数据科学的理论基础。DMS/NIGMS 联合倡议、旨在支持生物学和数学科学界的研究(DMS/NIGMS)、DMS/NLM 关于生物医学研究通用数据科学方法的联合倡议(DMS/NLM) 和威胁检测算法 (ATD) 也是此类筹资机制的典范。更多的此类资助机会将鼓励统计学家和数据科学家在一种新文化中发展研究计划，这种文化对有影响的工作大加赞赏。正如该报告前面所讨论的，具有影响力的研究可能来自统计学家对领域科学的沉浸和充分参与，例如天文学、预测化学、城市规划和精密医学等。资助包括统计学家和其他领域科学家在内的平等研究伙伴的研究团队，将导致跨领域的创新。资助机构和 ASA 等全国协会应共同努力，以确保统计和数据科学的研究人员充分了解这些机会，并有机会及时向这些计划提供反馈。

我们还建议 NSF 和其他资助机构为初级和中级研究人员提供专门的支持，使其介入领域科学，这可能与学校学术假和其他形式的教师休假关联。由 NSF 资助的研究机构和中心可以促进此类活动，但是需要新的机制来确保此类项目的成果评估着重于潜力和影响。政府资助可以激励更多的统计学家将投入到新兴的数据科学研究领域。

5. 博士教育

本部分考虑了社区在未来 10 到 20 年内可能采取的步骤，以确保统计学领域的博士教育为下一代领导者做好准备，以确保按照上面概述的方向转变我们的学科。虽然现有博士学位有很多优点和益处。我们认为这些计划需要进行重大修改和重新思考，以确保毕业生能够从事数据科学，同时保持卓越的统计研究水平。

在本科层次上，针对统计统计学本科课程的新课程指南和数据科学强调了统计基础的重要性，并伴随着在计算、数据技术、领域知识和伦理方面更深入和更坚实的基础。在这些文件的基础上，我们在这里专注于博士教育。

首先，博士是一个研究学位，博士课程应侧重于培养学生从事统计学和数据科学的研究。最可持续的培训模型或增长模型是帮助他们学习如何学习，从而使他们在领域和数据挑战不断发展的过程中能够灵活敏捷地进行智力适应和更新其知识和技能。我们的毕业生应该能够通过创建新颖的统计对象 (例如模型、方法、可视化对象) 或对此类对象进行分析，为解决以实际数据为中心的问题做出贡献。本节中的其余讨论将服务于此目标。

5.1 课程

我们相信，大多数大学的标准课程不足以满足学生的需求。进入学术工作市场和非学术或准学术工作市场 (行业、准学术、政府等) 的学生越来越被要求能够胜任各种主题和技能(例如，数据技术)。例如 Nolan and Temple Lang(2014) 全面介绍了许多现代数据类型和有效处理这些数据类型的计算技术。但是，大多数学生没有接受过这些技能的培训，也没有接受过迅速采用新技能的更抽象的技能的培训。

什么应该构成博士学位的基础统计课程以改变我们的领域？我们认为，虽然概率和推断是传统统计的关键基础，但当今统计领域的博士毕业生需要具备更深厚的计算和数据技术、通信、数据清理、定量批判性思维、协作技能、适当的问题制定和跨学科科学的技能。统计培训需要涵盖整个 “数据生命周期”。同时，我们不建议扩展必修课程。如果有的话，对于许多计划而言，需要提供更广泛的选修课程，而不是必修课程。

我们认为一定的基本统计、计算和数学水平是前提。除此之外，我们认为以下领域是 “核心”:

关键的统计基础，包括概念和哲学基础 (包括健壮性和稳定性考虑)
计算：编程、可重复性 / 工作流、数据技术、基础设施 / 数据库 / 云计算、数据管理、“wrangling/munging”
交流：为技术人员和非技术受众的写作、演示、可视化、提出和解决问题的实践以及领导力发展
以数据为中心的批判性思维能力：维持统计分析的各个阶段与潜在的科学或商业问题以及目标受众之间的联系；知道并传达合理和不合理假定之间的差异；严格评估数据的来源以及推论、评估和结论的适当性
数据建模和评估：例如，事后分析包括 EDA 和 PQR-S 的验证：P 代表人群，Q 代表问题，R 代表代表性，S 代表审查
抽样和实验设计基础
伦理：人类主题，隐私 / 机密，算法偏见
协作经验 / 技能（与前面的沟通技巧重叠）

一些课程计划将通过逐渐进化过程朝着更广阔的视野发展。其他的计划则需要采取更激进的方法。对于本科生水平，Cobb (2015) 考虑了后者的可能性。不需要所有博士学位。统计学中的所有博士课程都没有必要考虑相同的物质基础。但是，有一份蓝图 (或一套蓝图) 将有所帮助，并且是 Deborah Nolan 组织的后续 “十字路口的研究生统计学教育” 研讨会的目标之一。

几个限制因素使得难以在如此广泛的领域中提供培训。首先，大多数大学都不想牺牲他们认为是基础的课程和经验。其次，似乎很多院系太小而无法在如此多样的专业范围内提供适当的培训，并且由于学生之间的竞争，各院系之间往往有交流资源的阻碍因素。除了对现有课程进行改造或现代化之外，博士课程还应考虑非传统的学习机制，如块状课程、沉浸式体验、实验室轮换和可解决一个或多个这些限制的共享课程技术。但是，这些替代方案在获取、认证、质量标准、可持续性等方面提出了尚待解决的其他问题，NSF、专业协会和其他机构可能可以改善这些问题。许多计划已经为学生提供了 “轨道”，我们认为所有计划都应朝这个方向发展。在未来的讨论中可以考虑核心培训的后续轮换的 “医学院模式”。

由于缺乏对这些学科的深入了解以及对某一领域文化的了解，统计学家可能难以与其他科学领域的研究人员进行有效合作。解决这个问题的一个办法是为希望成为在科学领域有深度投入的应用统计人员的人设立研究生或博士后奖学金。这将使这些统计人员能够参加其合作者部门的课程 (或从事其他类型的培训)，甚至能够参加该部门，以更好地了解该学科的文化。可以与有关人员举行年度会议。实际上，爱荷华州立大学已经有这样一个共同专业博士课程程序。

5.2 谁将是统计学博士计划的理想申请人？

二十年前，本科生在统计学专业学习的情况极为罕见。成功的博士申请人通常拥有数学或物理学的本科学位，或者较少的是在其他基于经验的领域，如经济学，如果他们有足够的数学背景 (通常达到一年的数学分析水平))。有趣的是，尽管统计学逐渐成为越来越受欢迎的本科专业，但这种结构似乎变化很小。与科学的其他学科相比，显然不愿意录取主修统计学的本科生进入统计学博士计划，这是不寻常和不幸的。

为了实现本文中概述的转型目标，我们需要招收更多具有计算，写作，沟通和领导才能背景的本科生。应鼓励具有较强数学技能的本科生加入我们的课程，但他们还需要这些额外的职业成功因素才能获得有效的博士学位。许多本科生统计和数据科学课程已经调整了他们的数学要求。为打算申请博士课程的本科专业创建一个独特的课程可能有助于解决这个问题 (这通常通过数学的辅修专业或双专业进行)。重新制定博士计划的第一学期课程提供基于数学准备的多种途径，可能是使研究生群体多样化的另一种方法。

扩大统计范围的一种方法是招收更多种类的学生。上面讨论的专用轨道类型可能会适应这种增加的异质性。但是，大多数计划仍会希望所有学生完成一些核心理论课程，这可能对数学或计算机背景较弱的学生构成挑战。我们必须找到一种方法，让那些在核心领域准备较少而进入计划的学生适应。

5.3 提供更有效的培训

可以说，博士计划在培养高素质研究人员方面非常成功，但他们在培养高素质教师以满足对统计和数据科学课程日益增长的需求方面通常不太成功。培训学生如何有效教学很少是研究生课程的一部分。然而，有效的指导对于培训下一代统计学家以及经验丰富的各个实质性领域的研究人员至关重要。提供有用的、引人入胜且相关的指导对于帮助经验研究者理解统计学和数据科学对回答科学问题的关键价值至关重要。提高教学能力需要清晰的思想交流，应该具有增加研究人员清楚地传播其研究成果的能力的额外好处。为了满足把统计转换成以实践为中心的需求，有效的教师需要具有解决实际数据问题的实践经验，才能在课堂上教授此类实践技能。即使对于大多数经过理论训练的统计学家成为教授之后，要获得这样的经验还为时不晚，而且实际上是必要的。

在明确培训博士生的沟通和演讲技能 (上文讨论) 和支持教学技能发展之间，也存在着其他协同作用。博士交流课程可以保留一些明确的教学重点。但是即使没有这一点，我们也希望沟通技巧的发展将对教学能力产生积极的溢出效应。

也将欢迎在大学一级提出解决方案的创造性解决方案，特别是如果将示范方案的制定与材料传播计划结合起来，以便其他机构更容易采用这种努力；参见例如美国统计协会 / 美国数学协会的统计教师准备指南

5.4 专业和 NSF 在研究生教育中的作用

专业和 NSF 在理解和指导这些选择中应该扮演什么角色？收集关于统计课程的主要特点和各大学培训方法的数据的激励措施和资源将具有很高的效用。更有用的是尝试了解这些培训模式与随后的职业轨迹或其他感兴趣的结果之间的联系。这将需要额外的并且可能需要更多的劳动密集型数据收集。此外，创建基础设施将是至关重要的贡献，因为它可以确保这不仅是 “一次性” 的努力，而且可能导致持续进行的自我评估的努力。

NSF 可以支持讲习班、训练营和暑期学校课程，提供课程开发和教学的最佳实践培训。将这些类型的培训机会与旨在以高级方法培训学生的培训机会结合在一起的想法提供了一种特别有创意和协同作用的选择。例如，可以作为暑期学院的一部分提供培训，该培训既为学生或讲师提供了在方法领域的专业知识，又提供了培训和材料以支持他们回去向所在机构的其他人教授所学到的方法。

严谨的研究和对研究生教育的不断反思将确保我们培养下一代统计学家成为数据科学时代的领导者。鉴于统计领域的重点是通过对数据的分析来了解世界，让我们感到震惊的是，我们很少尝试了解自己的专业以及我们通过数据收集和分析有效地培训学生的能力。但是，这项活动很少有激励措施。我们应该持续评估至少某些选择的影响，而不是一味地投入有关最佳课程和最佳实践的辩论。为了支持这种自我评估，NSF 可以为下列研究创造资助机会: 考察课程的批判式选择、资格考试、课程计划结构、培训机会、教学方法等。这些评估的范围覆盖从数据收集工作 (职业道路、工作满意度等) 到关于应届毕业生感到缺少的技能的定性研究、关于当前培训实践状况的描述性研究，或比较不同培训策略有效性的随机实验。

Bambauer, J., Muralidhar, K. and Sarathy, R. (2014). Fools Gold: An Illustrated Critique of Differential Privacy. Vanderbilt Journal of Entertainmentand Technology Law 16, 701-755.
Breiman, L. (2001). Statistical modeling: the two cultures. Statist. Sci. 16, 199-231. With comments and a rejoinder by the author.
Cassel, C.-M., Sarndal, C.-E. and Wretman, J. H. a. (1977). Foundations of inference in survey sampling. Wiley-Interscience John Wiley & Sons, New York-London-Sydney Wiley Series in Probability and Mathematical Statistics.
Cleveland,W.S.(2001).DataScience: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review 69, 21-26.
Dwork, C., Hardt, M., Pitassi, T., Reingold, O. and Zemei, R. (2012). Fairness through awareness. ITCS12 Proceedings of the 3rd Innovations in Theoretical Computer Science Conference 214-226.
Freedman, D. (1991). Statistical models and shoe leather. Sociological Methodologies 21 291-313.
Lindsay, B. G., Kettenring, J. and Siegmund, D. O. (2004). A report on the future of statistics. Statist. Sci. 19 387-413. With comments.
Lockhart, R., Taylor, J., Tibshirani, R. J. and Tibshirani, R. (2014). A significance test for the lasso. Ann. Statist. 42 413-468.
Jordan, M.I. (2019). Artificial intelligence: The revolution hasn’t happened yet. Harvard Data Science Review, no. 1. https://doi.org/10.1162/99608f92.f06c6e61
Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. Ann. Appl. Stat. 12 685-726.
Mervis,J.(2019).Can a set of equations keep U.S. census data private? Science January 4.
Neyman, J. (1934). On the two different aspects of the representative method: the method of stratified sampling and the method of purposive sampling. J. Roy. Statist. Soc. 97 558-625.
Nolan, D. and Temple Lang, D. (2014). XML and Web Technologies for Data Sciences with R. Springer.
Sarndal, C.-E., Swensson, B. and Wretman, J. (1992). Model assisted survey sampling. Springer Series in Statistics. Springer-Verlag, New York.
Talagrand, M. (1994). Sharper bounds for Gaussian and empirical processes. Ann. Probab. 22, 28-76.
Taylor, J. and Tibshirani, R. J. (2015). Statistical learning and selective inference. Proc. Natl. Acad. Sci. USA 112 7629-7634.
Tukey, J.W. (1962). The future of data analysis. Annals of Statistics, 33, no. 1, 1-67.
Waller, L. A. (2018). Documenting and evaluating data science contributions in academic promotion in departments of statistics and biostatistics. Amer. Statist. 72(1):11-19.
Wender,B.A.(2017).Refining the Concept of Scientific Inference When Working with Big Data: Proceedings of a Workshop. US National Academy Report.
Yu, B. (2013). Stability. Bernoulli 19, 1484-1500.