3

埃博拉病毒——大数据时代的疫情防控

 3 years ago
source link: https://cosx.org/2015/01/ebola-in-the-big-data-era/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

埃博拉病毒——大数据时代的疫情防控

熊熹 / 邓一硕 / 刘辰昂 / 关菁菁

2014 年时代杂志的年度人物称号由埃博拉患者护理人员获得,在向他们致敬的同时,让我们回顾一下去年这场饱受关注并且持续到今年的全球性传染病事件。

本文由统计之都创作小组 (code99) 撰写,参与本篇文稿的 code99 成员有:熊熹, 邓一硕,刘辰昂,关菁菁

2014 年继马航客机失联事件之后,始发于西非几内亚的埃博拉病毒疫情经由传统媒体和数字媒体走入全球公众视野。据世界卫生组织提供的资料 1 显示,埃博拉病毒最早在 1976 年同时爆发的两起疫情中首次出现的,一起在苏丹,另一起在刚果民主共和国。后者发生在位于埃博拉河附近的一处村庄,该病由此得名。该次埃博拉疫情在刚果民主共和国爆发的是扎伊尔标准亚种,累计 318 人患病,280 人死亡,致死率 88%;在苏丹爆发的则是苏丹亚种,累计 284 人患病,151 人死亡,致死率 53%;另外还有雷斯顿、科特迪瓦、邦地布优等三个亚种,对动物和人类的危害相对温和。据悉,目前正在肆虐全球的埃博拉病毒,正是致死率最高的扎伊尔标准亚种。

埃博拉病毒疫情时隔几年便爆发一次,不过之前每次疫情规模都比较小,主要集中在一个地区爆发,并且局限在中非。特别地,刚果民众共和国史上曾多次爆发埃博拉疫情。

2014 年 3 月开始爆发的埃博拉病毒疫情的爆发规模引起了国际社会的关注,并且被世界卫生组织列为 “国际间关注的公共卫生紧急事件”(历史第三次)。首先,这次疫情涉及到了多个国家和地区。全境范围受影响的国家包括几内亚、利比里亚和塞拉利昂。部分领土受影响的地区包括马里的卡伊,西班牙的马德里,美国的达拉斯、德克萨斯州和纽约市,英国苏格兰地区的格拉斯哥市,尼日利亚的拉各斯哈科特港,以及塞内加尔的达喀尔。其次,这次埃博拉病毒疫情出现的病例和死亡数字超过了所有其它疫情的总和。截止 2014 年 12 月 31 号,累计 20206 人患病,7905 人死亡 2 。并且数字还在不断增加。而所有的埃博拉护理者,则被美国时代周刊选为 2014 年的年度人物。

回望过去几十年,人类无疑在信息、科技、生物、医疗等领域取得了今非昔比的成果。反观 2014 年埃博拉病毒疫情的爆发、传播、媒体报导、控制,我们不禁开始思考在这个大数据时代,数据、统计、理性思考、批判思维能为人类对疫情防控带来什么好处?这篇文章试图从三个角度去阐述大数据如何与疫情防控紧密相连。本文第一部分讨论了如何通过交通数据、移动通信数据与社交媒体数据等非传统公共卫生数据来测算乃至预测疫情风险;第二部分重点关注死亡率的不同估算方法带来的对于疫情风险的不同认知;第三部分聚焦在埃博拉病毒疫情的治疗和防控支出数据。

一、数据驱动的疫情预测

1. 由交通数据预测疫情 3

全球人口流动的日趋频繁使某区域爆发的疫情会给全球其他国家和地区带来潜在的疫情风险,于是如何对此类疫情风险进行有效的预测和评估自然就成了一个值得探究的课题。本次埃博拉爆发的一个重大特征即是,疫情通过交通运输突破国境,在源爆发地几内亚之外多国肆虐。对于国际间的人口流动,飞机显然是最主要的交通方式,因此对机场人口流动数据的统计分析也就成了重中之重。

事实上机场数据也早已被很多领域的研究者们所重视,基于此类数据分析建模的案例也已屡见不鲜。对于埃博拉疫情传播的分析,也有研究人员给出了他们的方法,其中一种就是通过估计引入风险 (import risk) 的方法来量化埃博拉对某一地区可能造成的影响。

对于引入风险的估计,最核心的问题便是如何通过动态模型或是统计模型将风险量化。这里介绍一种比较直观简介的估计方式,首先把引入风险分为相对引入风险 (relative import risk) 和绝对引入风险 (absolute import risk)。不妨假设 X 为疫情爆发区域的某个机场,而 Y 则是世界上任意一块区域,那么我们可以通过条件概率的形式来定义相对引入风险,即 P(Y|X)。而对于绝对引入风险我们则可以通过联合概率来定义,即 P(X,Y)=P(Y|X)P(X),这里需要注意的是 P(X) 往往远小于 P(Y|X),因此 P(X,Y)也会远远小于 P(Y|X)。在实际应用中,相对风险较绝对风险而言更有价值,其主要原因在于 P(X)的估计在大部分时间都难以实现,事实上 P(X)的估计需要依赖于大量的参数来描述 X 所在地区的各类因素,而绝对风险的估计却恰恰依赖于 P(X)。与此相反,相对风险的计算则仅仅需要各机场人口流动的数据即可,即无需考虑地区本身的相关因素。

将全球各地的机场数据整合后,人们即可以得到各地点相对引入风险的估计值,下一步则是考虑如何将分析结果向公众展示。显然数据可视化往往是直观有效展示分析结果的最佳方式,有人提供了一种基于 D3 实现的交互式网络分析图表。(图一展示了一个交互式图表的截图。有兴趣的读者可翻阅原图。图表链接:http://rocs.hu-berlin.de/D3/ebola/

图一a

2. 由移动通信数据预测疫情

埃博拉病毒在西非的爆发引起了全世界的关注,人们纷纷把注意力头像了机场等引起人口流动的公共场所,正如上一节所说,机场数据的确对于流行病学家等研究者们而言具有极高的分析价值,但除此之外,基于手机移动端产生的数据同样极具应用潜力。

用户每次利用手机通话的过程中都会同时产生相应的通话记录数据,其中自然也包含了电话号码、通话时间以及大致的通信地点等重要信息。对于运营商而言,这些数据可以为各地基站的部署提供参考从而提升通信网络。另一方面对于城市规划者而言则可以基于该数据判断相关地点是否需要拓展相应的公共交通设施。

然而除了上述这些相对常用的应用外,在流行病学的应用却更令人期待,更激动人心。事实上到目前为止一般情况下对于疾病扩散建模的常用方法依然是基于人口普查的数据以及相关调查。然而对于通信记录数据,人们却可以得到实时更新的数据,也就是说在实际应用中无需估计某地区的人口是否会迁移。同时幸运的是,在近几年中确实并不缺乏类似的成功案例。2009 年在墨西哥爆发的猪流感,研究人员就曾利用通信数据监测公众对于政府发布的健康预警信息的反应。此后 2010 年随海地地震爆发的霍乱疫情,研究人员则同样基于手机通信数据建模并给出了最需要援助地点的最优估计。

在对于埃博拉病毒研究的实际操作中却更为复杂,一个最主要的原因在于西非大部分民众并没有手机或者其他通信设备。不过尽管如此,某种程度上它却依然优于基于陈旧数据的统计分析。事实上研究人员如果可以从一个传染病爆发的地域追踪到人口的流动,那么对于下一个最有可能爆发传染病的地点就会有一个比较有效的估计和预测,从而可以提前展开合理有效的资源配置。遗憾的是,尽管很多相关的机构都做了很大程度的努力,但出于隐私等问题的考虑,电信运营商依然不允许研究人员使用这部分数据。

图2

3. 由社交媒体数据预测疫情 4

网络和社交媒体数据,对埃博拉病毒的预警,发挥了重大作用。HealthMap 是一个利用大数据反应疫情的网站 / 应用,它使用一定的算法来抓取来自社交媒体网站、本地新闻和政府网站、传染病医师的社交网络和其他渠道的数据,用于探测和跟踪的疾病暴发。2014 年 3 月 14 号,HealthMap 通过自己的系统,预警了几内亚境内爆发的 “神秘出血热”。2014 年 3 月 19 号,HealthMap 确认其为埃博拉病毒并对世界卫生组织发出警告,还给出了其在几内亚东南部热带雨林地区传播的粗略地点和路径。2014 年 3 月 23 号,世界卫生组织正式宣布埃博拉疫情爆发并报告了第一个确诊案例。在这时,HealthMap 已经追踪了在几内亚的 29 例确诊和 29 人死亡 ——所有数据和报告都来源于社交媒体和当地政府网站等。

HealthMap 利用复杂而算法,过滤不相关的数据,结合领域内专家的帮助,再对相关的信息进行分类,确定疾病的类型并在地图上定位爆发地点。针对这次埃博拉疫情,在世界卫生组织宣布当天,HealthMap 就上线了专门的页面,其中包含一个实时可交互的地图。全球网友可以通过这个可交互地图来免费了解疫情,其中包括具体的暴发地点和跟踪新的病例和死亡人数的信息。该系统还能够记录公众的关注度。用户可以在地图上放大特定的国家和地区,上面会标记主要病例报告。用户点击标记会指向爆发的新闻报道。同时,在地图底部的滚动条可以让你通过点击关键日期,以追踪病情进展。

这不是 HealthMap 第一次立功了。这个组织成立于 2006 年,由一组研究人员,流行病学家和软件开发人员组成的团队,利用网上各式各样的数据来源,监测和预测的疾病暴发,并实现对公共健康威胁的实时监控。他们汇集了各式不相干的数据源,包括网络新闻集中平台,目击者报告,专家策划讨论和官方验证的报告。除了实时和可交互的呈现数据,HealthMap 也致力于预测疾病风险。曾经有报导称,该组织成功使用 boosted regression tree 等模型成功预测了 SARS 在中国境内爆发的死亡率。

HealthMap 的官网宣称,他们主要的数据来源是 ProMED(一个国际传染病协会,成员主要为一线医生和研究人员)邮件列表、世界卫生组织官网,GeoSentinel(来自国际旅行医学协会和美国疾病预防控制中心的临床医生以个人身份的检测)、世界动物健康组织官网、联合国粮农组织、EuroSurveillance(欧洲地区以同行评审为目的的传染病监测和交流的信息平台)、Wildlife Data Integration Network(一个全球野生动物基本新闻源)、谷歌新闻搜索,百度新闻和搜搜资讯。另一份公开发表的论文显示,大部分数据来自 ProMED (61. 58%),谷歌等其他搜索引擎新闻则贡献了 25. 24%,除此之外比较重要的来源还包括 RSS 订阅 (12. 11%), 推特等社交媒体 (8. 7%)5 。这和新闻中极力鼓吹的完全通过社交媒体预测埃博拉疫情,似乎还是有一定的差距。这个社交媒体并不是大众所以为的普通公开社交媒体,而是全球一线医护人员建立的社交网络。事实上,谷歌以及其他一些社交媒体都试图通过抓取网络关键词来监控和预测疾病信息,但是并没有取得如此好的效果。谷歌曾经宣称自己的系统很好地预测了美国每一季的流感爆发,而实际数据显示,他们的系统常常高估了患病率。普通人对疾病的感知和在社交网络的分享,的确不如实际病情那么准确。另一方面,推特的数据显示,埃博拉引起了美国用户前所未有的恐慌,各州的讨论数字一片飘红,网络极端言论层出不穷。但实际上美国至今也只有 4 个确诊案例和一个死亡案例。

来自以色列贝斯医疗中心的临床信息学专家 Brad Crotty 博士在接受采访时说,HealthMap 事实上还有很多工作要做,以排除 “背景噪音”。这位专家并不是这个组织的成员。

Crotty 博士说:“你的确可以得到早期预警,但他们并不总是正确的。”

而正在负责 HealthMap 运营的 Sumiko Mekaru 博士则称,他们的本意是作为传统和官方健康报告的辅助,而不是取代它们。

二、疫情死亡率的计算与估计 6

死亡率的计算十分重要,特别是对于传染性疾病。病死率在流行病学中是一个非常重要的估计指标,因为它告诉我们感染特定疾病后死亡的概率。如果正在爆发中的估算准确,甚至可以帮助我们确定病毒是否在危害性方面发生变异,以及研究最合适的治疗方案。

正在西非乃至全球 肆虐的埃博拉病毒,有着众所周知的高致死率。在以往 的爆发中,高达 90% 的被感染者死于埃博拉。和本次大爆发同宗的扎伊尔型埃博拉病毒以往平均死亡率为 80%。这也是为什么,世界卫生组织最新疫情报告中的数据看起来有那么一丁点像好消息——尽管埃博拉感染率正在以惊人的速度攀升,报告中整体死亡率却只有 53%,从塞拉利昂的 39% 到几内亚的 64%。这比以往几次疫情爆发要相对温和一点。难道是这次爆发的病毒比以往的致死率与危害性低一点?还是说我们已经有了更有效的治疗方案?

实际上此处有一个隐情:明显降低的死亡率可能更多是因为官方测算方式的缘故,而非病毒的致死率,或者说患者接受的治疗水平导致的。事实上,最近几周感染人数的急剧增加,正是报告死亡率看起来不那么高的其中一个主要原因。

官方所谓的死亡率,或者说一个爆发疾病的 “病死率”,有若干计算方式。其中最为简单的,就是目前死亡人数除以目前总感染人数。世界卫生组织最近报告的死亡率也就是这样计算的。

但是这种方法并没有考虑到,许多依然存活的病人——特别是刚刚被诊断又病得很厉害的——很可能也不能活下来。因此这低估了实际死亡率。特别是疾病在快速扩张时,这种低估效应会被加大。来自英国爱丁堡大学研究传染病的进化生物学家 Andrew Rambaut 认为,这种计算也忽视了那些被确诊为埃博拉感染者,却在被批准恢复并出院之前已经离开医院的患者的生死。许多这样的病人后来都死了,但是却没有被统计在官方死亡数据中。

另一种计算方式是只考虑已经确认恢复而不再需要治疗与已经死于疾病的患者,而不计入目前还在治疗中的病人。这样的结果看起来更为克制精确。根据 11 月 5 号塞拉利昂健康与卫生部最新疫情报告,841 个确诊病人被治疗后出院了,而 1,103 个确诊病人已经过世。这样该地的埃博拉死亡率应该是 57%,而非世界卫生组织报告的 39%。不过来自哈佛公共卫生学院的流行病学专家 Marc Lipsitch 认为,这样的计算方式依然不够准确。治愈出院的病人通常比死于病症的病人,要在医院待更长的时间。也就是说不计入计算的还在治疗中的病人,实际上是更可能治愈的那批。因此这样的计算会高估实际死亡率。

另一种更为精确的方法是,只计算那些同时感染了,又经历了足够长的时间,以至于要么死于病症要么恢复出院的人的最终结果。这样的计算,自然更接近于死亡率的定义与本质。Rambaut 注意到,Science 上一篇研究埃博拉病毒的最新变异的报告中,今年五月底开始的一次地区性爆发中共确诊了 78 名埃博拉患者,23 名存活下来。也就是说今年爆发的埃博拉病毒实际致死率应为 70%。值得注意的是,这份报告由来自四个国家的五十多名奋战在一线的医疗工作者共同完成,其中五名共同作者并没有等到文章在 Science 上的发表。因为他们在研究与等待上线过程中已经感染了埃博拉去世了。

世界卫生组织战略部主管 Christopher Dye 说,目前组织正在转向这个测算方法,并在为将每一个病患的记录都整理为护理案例而努力。Dye 说,“我们需要最有效的估计。我们想知道埃博拉在这次爆发中的致死率,是否与之前在中非的几次爆发有所不同,以及目前爆发中不同的治疗方案是否有不同的效果。”

不过,即使这个方法依然是不够完美的。在大多数疾病爆发中,由于病患并没有寻求医疗机构的帮助而导致统计案例缺失,从而带来致死率估计的偏差。Lipsitch 认为,这种偏差可能是偏大的,也可能是偏小的。许多案例的病情相对温和——感染患者并不需要看医生就能自行康复——因此统计到的数据高估了实际死亡率(这正是墨西哥 H1N1 流感爆发时的情况,专家怀疑中东呼吸综合征爆发时也存在这种情况)。不过 Lipsitch 也说,温和版的埃博拉不大可能像温和版流感那样难以发现,只是考虑到这些地方整体缺少医疗条件,有可能存在一定数量的自愈患者没有被统计到。

另一方面,研究者注意到许多埃博拉感染者还没去到医院已经死在家中(通常还感染了其他家庭成员和照顾者)。这意味着他们的死亡并没有被计算——从而低估了致死率。

到底有多少未被记录的埃博拉病毒死亡病例发生,我们将永远不得而知。卫生官员正在跟踪疑似病例和可能病例,其中有许多是在被确诊为埃博拉之前已经死了的。是否将这些案例放在致死率计算中是另一个潜在的误差来源。另外,确诊测试在不同的地区有不同的模式:例如,有些地方已经做了更多的验尸测试。Lipsitch 说:“怎么在这些误差中保持平衡始终是一个大问题”

Dye 在一封邮件中写道:“我们并非不知道估计死亡率的种种困难。我也并不认为,埃博拉的死亡率在塞拉利昂的死亡率(39%)比在几内亚(64%)低。尽管目前的数据从表面上看如此,但我们需要排除所有的估计误差才能相信这个是事实。”

另外,最早根据社交网络大数据预测了今年埃博拉全球性爆发的 HealthMap(前文有详细介绍),则给出了死亡率另一种测算方式。他们认为,最准确的死亡率要等到疫情完全被控制,所有感染者要么过世,要么确认存活之后才能得到。目前报告的 53%,只不过是死亡案例比例(proportion of fatal cases ,以下简称 PFC)。

尽管埃博拉恶名昭彰,但并不是一感染上马上就死去。如果没有适当调整,目前的估算方式(也就是前文提到的最简单并正在被世界卫生组织采用的 PFC)没有考虑到从患者被感染到死去的滞后时间——按照 HealthMap 采用的独创方差最优化方法,对本次爆发案例做出的估算,这个时间平均大约应该是 16 天。这意味着 9 月 8 号报告的 2296 名死亡案例实际上对应着 8 月 23 号报告的感染案例。根据这个滞后时间调整的 PFC 为我们提供了对真实致死率一个更好的近似。下图是他们根据世界卫生组织提供的数据计算和绘制的调整后死亡率图:

图3

根据上图,调整后的埃博拉死亡率——大约在 80-85% 之间——比实际报告的结果高多了。不过这个调整后死亡率和无国界医生组织提供的数据比较一致。从今年三月份开始无国界医生组织收治了 2077 名疑似感染者,其中 1038 名被确诊,确诊患者中 241 名康复出院,也就是说死亡率高达 77%。

三、数读埃博拉:医疗支出

对于全球防治埃博拉疫情所需的花费,目前有几个数据或许可以给我们提供一点大概范围。

第一个要提到的数据是联合国今年九月份的调查报告。https://docs.unocha.org/sites/dms/CAP/Ebola_outbreak_Sep_2014.pdf

当时对抵抗埃博拉病毒的下六个月所需花费的估计是大概 10 亿美元(987.8M)。花费主要在五个方面:

  1. 停止扩散(STOP the outbreak)[5M+23.8M]
  2. 治疗患者(TREAT the infected)[331.2M + 14.0M]
  3. 保证关键服务 (ENSURE essential services)[107.7M+97.1M+2.5M+64.8M]
  4. 维持稳定(PRESERVE stability)[42.6M+23.4M+45.8M+3.2M]
  5. 防治未受感染国家被感染 (PREVENT outbreaks in countries currently unaffected)[11.9M]

这当然是 9 月份当时的估计,现在看来会不一定准确,但最少可以大家看清楚大概那些地方最需要花钱,大概要多少。同时也可以给有捐款的国家和个人一些需求的信息。

第二个数据是关于治疗患者的费用的。美国商业媒体 Bloomberg 发布了一篇文章,标题是: Bill for Ebola Adds Up as Care Costs $1,000 an Hour(治疗埃博拉的费用加起来有每小时一千美元) 这个听起来有点耸人听闻。仔细一读文章,原来讲的是医院在治疗在美国德州去世的埃博拉病人 Thomas Eric Duncan 时的花费情况。在对这位病人的医治过程中,每天的花费大概在 $18,000 到 $24,000 之间,报道时去上限,得到每小时一千美元的估计。我想花在给非洲的病人治病的花费肯定比这个数字要小太多。

第三个数据是关于谁出钱的问题的。这里有个表,是对应当时下六个月所需的 987.8M 美元的来源的。http://data.163.com/14/1020/02/A8VGQE1600014MTN.html 在当时的这些捐款中,世界银行,美国,非洲发展银行占了大头。世界上大多数国家都多多少少有贡献。资金来源和用途的透明公布有助于让出力的国家,组织和个人对资金的合理运用有及时了解,这样也可以促进更多的力量来加入抗击疾病的战斗中。

图4

虽然最近关于埃博拉的报道不在像几个月前那么热闹,现在全球抵御埃博拉疫情的战役仍在紧张的进行中。在这个信息时代里,随着我们收集数据和运用数据的能力的爆发,世界各个角落都紧密地联系在这个信息网络中。数据和对其适当的分析已然成为人类征服自然界和适应自然界的重要力量。

毕业于中央财经大学,感兴趣领域是数据挖掘技术(R 语言)在金融投资分析和计量经济学中的应用。博客:http://yishuo.org;微博:http://weibo.com/dengyishuo邓一硕浙大准大四本科,统计之都主站编辑。weibo:求证 1 加 1;blog: http://chenangliu.info/cn/;email: [email protected]刘辰昂女,人称 “师姐”。京东商城 Data Science Lab 的算法工程师,现在主要在做一些推荐系统和个性化的工作。熊熹

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 第二届中国贝叶斯统计学术论坛(天津,2014)会议纪要 COS 每周精选:数据科学职业选择 “大家” 谈 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK