COS 访谈第 33 期：刘三震老师

COS 访谈第 33 期：刘三震老师

刘三震 / 谢益辉

关键词：生物信息; 数据挖掘; 统计; 计算科学; R 语言; bookdown; 科研生活

编辑：王毅然；审稿：黄俊文

这篇访谈的形式很特别，是在论坛回帖中完成的，整理得以下对话。原帖见这里。

谢：今天我们有幸请到了堪萨斯州立大学植物病理学系的刘三震老师为大家分享他的留学和工作经历。此前先交待一下背景信息。刘老师和我都是爱荷华州立大学（ISU）毕业生，他生物，我统计，但正式碰面则是毕业几年后的事了。今年 3 月初我受邀去刘老师任职的系访问两天，顺便了解了一下他的工作。我的生物知识有限，当时说到的一些细节问题我也记不清了，现在还有印象的一是他提到他们有些图形的绘制用现有软件非常慢，甚至要花十几天时间，我感觉可能有很大改进空间，在统计模型方法方面也一样，可能需要跟更专业的人士合作；二是我当时看见他办公室地上有个树莓派（Raspberry Pi）盒子，于是很好奇问他用这个做什么，后来了解到他们用树莓派对受病毒侵害的植物每隔一段时间拍照一次，最后拼接成了一个视频，可以看到植物枯萎的过程。刘老师的实验室主页在：http://plantgenomics.ksu.edu 感兴趣的朋友可以去那里看到更多信息。下面我开始提问。

请您先简单介绍一下自己，并尽量以门外汉能懂的语言介绍一下您的实验室吧。

刘：大家好，很高兴在统计之都和大家交流，感谢益辉提供的机会。我 2004 年到美国爱荷华州立大学（ISU）留学，学习植物遗传。开始两年做了不少传统的生物遗传实验，后来接触了大量的生物数据，开始学习统计和编程（Perl & R），慢慢地进入了生物信息领域。2010 年我博士毕业之后留校做博士后，延续博士期间的生物信息工作。在这之前，我毕业于厦门大学生物系，厦大毕业之后在上海博星生物芯片公司工作三年多，然后申请出国留学。2013 年，我开始在堪萨斯州立大学植物病理系任教并有了自己的实验室。目前我的实验室有两个主要研究方向：

了解植物（例如玉米和小麦）抵抗病原菌的分子机制，分子机制可以理解成是什么基因通过何种途径达到抗病效果；
试图解析植物组织培养和再生能力的分子机制。

这些研究都是为培育 “强化版” 作物提供支持。在我们的研究中，数据是核心，大量的生物数据对我们的分析能力提出更高的要求，这就是为什么我们生物行业和计算、统计有了更多的交叉，也是为什么我们希望和益辉以及更多的统计之都的同学有更多的交流。

谢：我听很多学生物的同学吐槽说当年高考报志愿都被一句话给蒙了：“21 世纪是生物的世纪”，然后稀里糊涂入了生物的坑，觉得很苦很累又很难出成果，不知您对此作何感想？生物是您发自内心的兴趣吗？

刘：首先，我想说当年选择生物确实受媒体的影响，高考报志愿觉得这个是未来的方向。大学期间忙忙碌碌地学习，觉得生物挺不错的，为了充实自己，还选择了计算机作为辅修专业。记得大学毕业时，同班同学大多还是喜欢所学的生物专业。学生物面临的困惑是就业时可选择的机会不多，生物研究，特别是基础研究，大多和现实生活相隔遥远。所以，从事生物研究得承受某种孤独感，还有益辉所说的 “苦和累”，不是体力上的 “苦和累”，而是时间的大量投入和回报的不匹配。我自己也曾困惑迷茫过，但对我来说，放弃可能更难。目前，各类生物科技迅速发展，潜在的机会（科研发现和创业）还是不少，大数据时代提供了新的机会。还有，科研工作需要创新，从发现和解决问题中得到乐趣，这是我的激情所在。

谢：您工作三年之后才申请出国，这种案例似乎并不太常见，一般人好像都是念完本科或者研究生就直接申请出国。选择工作的人似乎倾向于不再去做学术研究，您是如何想到工作后再出国深造的？

刘：工作三年再出国，这种例子是不多，最大原因还是觉得当时技术工业化有些太早，行业需要扎实的学术积累，所以就下定决心出国留学。可能是因为耽误了几年时间，出国之后就更有紧迫感，觉得不能再浪费时间了。工作后再留学，付出往往更多，这种方式我也不推荐。

谢：在您的研究领域，数据大致都长什么样？规模在怎样的数量级？可否列举一些具体的常用分析工具？以及列举一两个科研过程中常见的困难和挑战？（可以是软件方面，也可以是人力资源方面。）

刘：生物数据各种各样，我接触最多的是基因组测序数据。一个人的基因组有大约 30 亿个字母的 DNA 密码，波士顿 BROAD 研究所每 10 分钟测定一个基因组，一天产生 17Tb 的数据，这还仅仅是一个研究所的数据。数据主要是以文本文件格式存储，各个物种数据格式都是标准化的。基因组测序的是基因组的短片段，如何把短片段组装成较完整的长序列是个挑战。不同基因组相互比较，这就需要 DNA 快速比对算法。基因组信息还需要和疾病、各种表型特征建立关联，合适的统计方法非常重要。传统的生物学注重从假说（Hypothesis）入手，设计实验去验证假说。现在大量数据的涌现，很多时候需要统计和可视化方法来挖掘数据，编程工具（例如 R）就显得很重要。数据挖掘就好比做实验，一个接一个的分析，就有了项目管理的必要，还有如何保证结果的可重复性（reproducibility）。益辉和其他学者提供的 RStudio 的产品给了我们一些思路。例如，我试着用益辉的 bookdown 来管理项目并更名为 Projdown（后来觉得这名字有点怪怪的），目前正在继续试验。可以说，计算和统计是现代生物行业不可或缺的工具，反过来，生物数据的分析需求也推动了相关领域的发展。

谢：我大概可以理解我的 bookdown 对你们有什么用处，也很高兴你们在用它。我这大半年来在做另一个项目，叫 blogdown，它更适合管理零碎不成系统的 R Markdown 文件。bookdown 更好的应用场合是一个主题明确的项目，比如书籍（每一章对应一个 Rmd 文件）；而 blogdown 就比较随意了，它是针对基于 R Markdown 建设网站而设计的，用户可以写一写比较随意的 Rmd 文档，比如哪天想到一个分析，就新开一个 Rmd 文件写上两段。在自然科学领域我听说有实验室记事本（Lab notebook）的工作方式，大概是用日志记录当天做了些什么实验有什么结果和发现。我觉得你们也可以尝试一下 blogdown，它可能更适合你们的日常工作。等一个项目相对比较成熟、到了做总结的阶段之后，可以再用 bookdown 来汇总过去做过的关键性分析报告，编成一本书或项目报告。

刘：我喜欢 bookdown 里的 Rmd 文档以’01-‘、’02-‘设置，文件结构很清晰。我们最近安装了本地版的 GitHub（Gogs），希望 bookdown 能方便地和 Gogs 衔接。今后我们会尝试 blogdown ，管理一些零碎信息。

谢：blogdown 采用的文件命名方式默认是以日期命名，而不是 ‘01-‘、’02-’ 这样的序号，所以我说它比较适合实验室日志。bookdown 并没有跟 Github 紧密捆绑，所以 Gogs 应该也没什么问题。当然，如果遇到问题，随时欢迎向我反馈：https://github.com/rstudio/bookdown/issues

有一个纯外行问题：我突然想起来最近奥马哈的日本甲壳虫泛滥，这货在美国没有天敌，所以很难杀。我们的好多树叶和花草都被这货给吃光了。您的研究方向是植物如何抵抗病原菌，不知道有没有涉及到如何让植物抵抗这种外来生物的入侵的研究。我不想在菜园子里打药，实在拿它们没办法，我种的樱桃树都被它们完全吃秃了。

刘：奥马哈日本甲壳虫问题，应该可以找到非农药的解决方案，你可以提出挑战，设立资金资助（这个很重要），我想一定会有好的科研建议书供你选择。这也是当代科研的一种模式，例如，现在农业需要提高作物的抗热、抗旱、抗虫和抗病等能力，这就提出了研究问题。各个科研课题组会根据自己的专业特长提出问题的解决方案，如果课题得到资助，一般会花 3-5 年努力实现所提出的目标。

谢：为了我的一棵樱桃树的虫害问题，我目前还拿不出一个亿来立项。不过谢谢您分享这个流程，万一哪天我用得上呢。

我作为一个 R 用户，听到别的社区以及客户对 R 的一个成见是 R 无法处理大数据。RStudio 这两年做了非常多的大数据相关项目，例如 sparklyr / dbplyr 等。我对处理大型数据这方面不是很在行，只有一点微薄的数据库基础，所以我想了解一下，既然你们的数据都是那么大数量级，我怀疑你们肯定不会直接第一步就上 R 去处理，那么您可否谈谈从原始数据到 R 能处理的数据这个过程大致是有些怎样的处理。方便的话，您可以给个例子，比如原始数据什么量级，中间经过怎样的处理，最后到达 R 里面是什么量级，计算需要怎样的硬件环境，耗时通常在什么量级（小时、天、月），等等。

刘：你是对的，我们不可能一开始就用 R 来处理数据。举个例子吧，有些日本甲壳虫对农药有了抗药性，假设虫子有 2 万条基因，我们分别测定抗药和非抗药虫子接受农药处理时的所有基因的活跃度，目的是找到不同活跃度的基因。当然，实验设计少不了生物重复，如果我们有 3 个重复，这样就有 6 个样本。我们可能会得到 30G（5G x 6）的数据，这些数据是大量零散的基因片段。我们首先分别把它们定位到各个基因上，这个过程需要高效的 DNA 比对软件，显然，R 并不是编写这些软件最好的语言。每条基因上定位基因片段的多少代表基因的活跃程度，在数据上，我们用一大表格（20,000x6）代表 2 万条基因在 6 个样本中的活跃程度。这时 R 就派上用场了，统计分析和后续作图我们都是用 R 来完成的。这是个简单的实验设计，大多测序实验数据量更大，设计更为复杂。

谢：根据您招收实验室人才的经历，您最看重他们什么样的能力或特点？我的意思是他们加入您的实验室之前就应该具备的能力。怎样的能力在加入实验室之后容易人工培养出来，怎样的能力最好是先天具备？比如生物领域知识、软件开发、统计知识、做事认真的态度之类的。

刘：招聘学生和博士后，确实需要考虑多个因素：个人兴趣、生物知识、实验能力、计算能力、创新能力、个性和个人投入时间的意愿等等。具备良好的基础知识和技能肯定好，但不是一定需要。特别是生物领域，个人的专业训练很大程度上取决于所处的环境（如实验室），基础和技能的好坏有时并不能客观反应能力高低。如果实验室提供合适的学习环境，一个人的努力和好学可以很快弥补技能上的不足。但其它一些方面的素养却较难在短时间内培养，例如思维习惯和钻研精神，这些可能是平时点点滴滴积累出来的。优秀人才有很多通性，但优秀人才也各有各的不同。我个人认为，导师和学生或博士后的匹配度也很重要。是否有一定的共同兴趣，能否顺畅沟通，是否能互相促动，增强各自（包括导师）的创造力。如果匹配度是一个参数，它应该是一动态的参数，有时需要双方共同努力使之不断提高。论坛里的同学，如果今后选择导师，也可适当考虑匹配度的问题。总结一下，我觉得技能很重要，但一个人的勤奋和谦虚好学也同样重要。

谢：谢谢您分享您的人才观，我觉得说得很好。常有人问我出国留学选择学校和导师的经验，其实我唯一的经验就是找一个合适自己的导师（也就是您说的匹配度），毕竟是会在一起合作五年的人（生物专业应该会更长）。我个人根本不在乎学校排名。

那我再继续下一个话题了。您可否谈谈您发表过的比较满意或自豪的一个成果或者一篇论文？它解决了怎样的问题，您是如何发现或想到解决方案的？

刘：好吧，我就介绍一些我的研究经历。我在 ISU 的导师是 Patrick Schnable，他多年来积累了许多突变玉米，我们想探明是什么基因改变导致了突变。弄清楚每个基因都需要花好几年的时间，过程包括基因定位和克隆。我接手课题后，尝试了一些传统方法，但课题进展缓慢。在缓慢的进程中，我积累了一些经验，这对之后的改进和创新都有帮助。我发表过几篇基因克隆的文章，其中两篇就介绍了基因定位和克隆的新方法。现在也看到不少人用我们的方法，自己还是有些自豪。要问为什么会有这些创新，我想首先应归功于好的课题需求，这一点我是很幸运的。还有就是失败的经历，失败让你想得更多更深入。有了课题需求，又积累了失败的经验，那么，如何才能想到解决方案（这也是益辉的问题）？这个很难回答，但我发现我们过去几个创新点有个共同点，它们几乎都是从交叉课题和不同领域中得到的灵感。所以我觉得对自己课题的投入和多接触不同类型的课题对创新会有一定的帮助。总之，需求、困境和失败是创新的动力，不同知识点的碰撞是创新的涌泉。

谢：可否给一下您提到的那两篇文章的文献条目？你们生物的论文标题我通常十个单词就有七个不认识（基本上只认识冠词、连词和标点符号），我连蒙带猜一下是不是下面这两篇？

Liu, S, CR Dietrich, PS Schnable, 2009 DLA-based strategies for cloning insertion mutants: cloning the gl4 locus of maize using Mu transposon tagged alleles. Genetics, 183: 1215-1225.
Liu, S, CT Yeh, HM Tang, DS Nettleton, PS Schnable, 2012 Gene mapping via bulked segregant RNA-Seq (BSR-Seq) PLoS ONE, 7: e36406.

关于您说的从别的领域和交叉课题得到灵感，我作为一个码农也颇有共鸣。虽然我主要做 R 包开发，但我的大部分想法都不是对着 R 自身苦思冥想得来的，有时候我会看看别的社区做了什么以及怎么做的，有时候我也会从用户的反馈中得到灵感（比如我上次去您那里访问时，你们提的问题都很好）。那种完完全全的创新对我们大多数人来说应该都不太可能产出在我们脑子里，借鉴式和迁移式的创新的实际可操作性要强得多，毕竟惊世骇俗的天才还是数量有限。

再谈生物的话我已经快撑不下去了，我换个生活方面的话题。作为生物领域的教师和科研工作者，您觉得工作和生活之间的平衡好处理吗？工作会不会太多占用自己的生活和休闲时间？

刘：恭喜恭喜，找对文献了。在学术界，不仅生物领域，科研人员在时间上确实投入很大，工作占用了许多晚上和周末的时间（至少我认识的许多朋友是这样的），但大多数人还是花相当多的时间和家人在一起。我有一双儿女，我太太花大量的时间照顾他们（家庭支持非常重要），我除了工作外就尽量陪他们。时间矛盾肯定有，有时周末加班，看到窗外天气那么好，会有愧疚感。有时也得努力寻找解决的方法，例如，家人一块儿去运动。现在小孩慢慢大了，我想以后可以一块儿自习，这是我的 “梦想”。

谢：居然一口气蒙对了文献，这运气我今天应该去买两张彩票（其实也不算全蒙，我看了您的 Google Scholar 主页，根据您的提示选了一下可能匹配、您是第一作者、以及引用相对多的文章）。说到孩子，就您的经验，您感觉在美国出生的华裔小孩成长过程中有没有什么特殊的挑战？是否很难让他们接受中国文化甚至只是中文？

刘：小孩成长过程，挑战很多，我觉得多数和国内小孩遇到的问题一样。当然少不了一些特有的挑战，比如如何保持中文教育，比如小孩会不会因为处在非主流群体其心理受到影响。幸运的是我们学校有孔子学院，有针对中国小孩开设的每周一次的中文课程，有一些学习效果，至少可以维持中文教育状态。我们也给小孩看些中文节目，如 “朗读者” 和“中国好声音”。目前，他们听和说没问题，但读写能力远远不够。我希望他们的中文能达到一定水平，如果他们有能力看金庸小说了，那就不愁了。对于处在非主流群体对小孩的心理影响，因为这方面的影响在日常学习生活中表现不明显，我们目前不知有何好办法，只能多和小孩沟通，具体问题具体解决。

谢：哈哈，原来您还期待他们能看金庸的武侠小说。其实我觉得挺好的；武侠是中华文化的一个非常重要而独特的元素，但它被引到国外的时候往往只剩下了打斗，精华部分都流失了，诸如英雄意、江湖气、天地心、生民命；简单说，就是有铁血而没有丹心。我小时候很喜欢看武侠小说，但那时候资源匮乏，非常难得能偶尔在别人谁家柜子里翻出一本没头没尾的破旧武侠小说来，所以至今我都不知道我那时候看的是些什么书。现在书籍资源过剩，而且我们陷入了一个视频世界，加上中文又不是他们的主要语言，我觉得让他们能被武侠小说吸引还是非常有挑战的。

说到 Unix/Linux 知识，我突然想起来一件往事。那是 2010 年的时候，我在我们统计系做了一个报告，讲如何方便地结合 LyX 和 R 与 Sweave 动态生成可重复的报告（那时候 knitr 还没诞生）。你们 Schnable 实验室有个叫应开的师兄不知怎么也过来听我的报告。当时我报告里提到了一个问题，就是当 LyX 调用 R 出错的时候，我不知道如何查看具体的错误消息。我的报告结束后，他过来跟我说可以通过特殊的命令行语法把错误消息重定向到文件中，例如 2>&1。我之前完全不知道命令行里面这些重定向的知识，他点拨了我一下，我发现非常有用。一定程度上，这也是开启我的 Linux 大门的小钥匙之一。另外我发现你们 Schnable 实验室网站有一个我很喜欢的地方，就是在学生列表里，每个中国学生的拼音名字后面会跟着中文名。我在美国通常都很想知道别的中国人的汉语名字（个人习惯），但一般都找不到。刚刚我又重新看了一眼这个网站，突然看到一个我记忆中的名字，武海燕。不知您跟她在 ISU 是否有几年的交集？我结识她还是 2006 年在这个论坛上，当时我还在国内刚念完本科，后来等我去 ISU 的时候，她应该是已经毕业走了，所以我也没真正见过她。不过过了这么些年，她的论坛 ID 还在呢 @haiyanwu，这么一想我们的论坛技术人员也蛮厉害的（变相夸奖 @Ihavenothing @yanlinlin82）。

刘：好记性，开（编者注：应开）和海燕都是好同学。开在东部一研究所，继续从事生物信息工作。海燕在中国罗氏公司。想象中，海燕在当年应该是统计之都的活跃分子。

谢：我的记忆碎片比较多，偶尔会翻出很久以前的事情。海燕师姐在统计之都活跃的时代，我感觉国内生物信息才刚刚起步，我们这个论坛里谈论生物信息的基本上都是国外的留学生；当然那个时候我对生物信息啥都不懂，看他们说得天花乱坠我两眼懵圈，直到后来到了 ISU，上了 Dan Nettleton 老师的一门基因芯片课，才略有了解（现在也基本忘光了）。

我现在记不太清我究竟是那时候在那门课上发现有些流行 R 包里的函数写得很糟糕，还是在另一门贝叶斯课上发现的，我感觉对 R 的计算效率了解透彻的人应该会对你们领域很有帮助（R 的运算效率很容易让人误解）。虽然我也不是计算方面的专家，但要是我将来什么时候能抽出两个星期时间，我很有兴趣去你们实验室蹲点，看看你们的具体计算，尤其是作图。我们公司的二号员工（Joe Cheng）前年花了几个星期看了一下 R 里面关于空间统计学和地理信息相关的包，他本来没有这方面的背景（他是 MBA 出身然后业余爱好编程），但他很快发现，有个流行的 R 包效率太低，他用 C++ 改写了一下，让它的速度变快了几百倍，他感到非常得意。我觉得这样的事情要是我也能办一两件，肯定同样会有巨大的满足感。哪怕办不到这样的事情，我觉得计算领域有一些好习惯如果能在实验室里贯彻（比如如何写 R 包、如何分析代码速度瓶颈等），也会大幅提高工作效率，不过您的实验室已经非常先进了，大家都用 GIT 和 R Markdown。

刘：你说的 R 包专业性问题，我想这在生物软件中是普遍存在的。我非常感谢你有兴趣帮助我们，我们会开始收集一些重要的问题或需求，如果有可能，到时集中解决。R 是我们重要的分析工具，入门相对容易，平时也能零碎地积累些经验，但如何进一步提高，如何写专业的 R 包，还有像你说的，如何分析代码速度瓶颈等，我们太需要有人指导，非常期待。

谢：您是什么时候通过什么途径了解到统计之都的？

刘：统计之都我是在念博士最后一年或是博士后时知道的，不记得怎么知道的，很有可能是同实验室的应开或季铁铭介绍的，还记得当时就用过 LyX 来写报告，应该是看了一些上面的文章开始尝试的。

谢：我一个人力量有限，我这次采访您的动机之一也就是以您为代表，挖掘并展示一下你们非统计非计算机的科研人士的需求，让更多人了解你们，说不定将来什么时候会有其他人去您的实验室蹲点帮忙。计算机那边我不知道，统计专业这边一直有重理论轻计算的坏传统，当然这个随着所谓的大数据和数据科学概念爆发已经在改变，我觉得理论固然重要，怎样让理论落地也一样重要。发明或发现一个新的定理有它的价值，而 “上山下乡” 去一个实验室让他们的计算变得快捷，也一样有价值。在我看来，前者就像“为天地立心”，后者如同“为生民立命”。往后要是有空，我也访谈一下应开和季铁铭。这次访谈我看就差不多了吧，占用了您不少时间。我最后留两个稍微轻松点的问题。其他人要是看了这个访谈还有问题，欢迎继续。

您个人在工作之余有什么特别的兴趣爱好？
您最希望在统计之都看到什么方面的文章和帖子？

刘：你也花了不少时间。还有，谢谢你的采访，提问题比回答有更多的挑战。回到个人兴趣的问题，我最大的乐趣是打篮球，十分没有天赋，但非常享受。应该说随着年纪的增大，机会越来越少，所以珍惜每一次打球机会。很希望能在统计之都多读些统计学在实践中应用的普及文章，例如应用贝叶斯方法帮助定位丢失的炸弹。有趣味性，还能加强理解一些统计概念。当然，技术讨论的文章也很好。

美国 Iowa State University 遗传学博士，国内毕业于厦门大学生物系。现在美国 Kansas State University 植物病理系担任助理教授（实验室主页：http://plantgenomics.ksu.edu/），从事生物信息学、生物技术，遗传学和基因组学研究。主要研究手段是利用大量基因组数据加深理解生物学问题。因项目需要，开始接触大数据和统计分析，乐于编程和从数据中寻找故事。刘三震中国人民大学统计硕士，爱荷华州立大学统计学博士，R 包 knitr 的主要作者。现为 RStudio 软件工程师，曾负责 Shiny 包相关开发工作，后转入 R Markdown 相关扩展包的开发，包括 bookdown 和 blogdown。对统计计算、可视化、以及各类网页相关技术感兴趣，有志于对技术写作工具做减法工作，坚信人类浪费了太多时间在期刊论文、学位论文、书籍的排版上。平时主要活跃在 Github 上。个人主页在 https://yihui.name，思想偏激，流水账、意识流甚多，小人之心甚重，慎入。谢益辉