隐私保护：AI实现医疗保健临床数据匿名化

2022-09-02 15:10:21

医疗保健无疑是受数据泄露影响最大的行业之一，每起数据泄露事件平均造成920万美元损失。在此类违规案例当中，最常暴露在风险之下的信息类型正是敏感客户数据。

面对突如其来的新冠疫情，我们已经亲眼见证创纪录级别的数据泄露事件。IBM最近的一份报告发现，数据泄露的成本也在急剧攀升。

制药和医疗保健企业均需要在保护患者数据的前提下，按照严苛的指导要求组织运营。因此，任何违规行为都可能引发高昂代价。例如，在整个药物发现阶段，企业需要收集、处理和存储个人身份信息（PII），而在试验结束并提交临床申请时，必须在所公布的结果中注意保护患者隐私。

欧洲药品管理局（EMA）0070号法规和加拿大卫生部出台的《公开发布临床信息》规定，均对数据匿名化提出了具体建议，希望尽量降低利用结果还原患者身份信息的风险。

除了倡导数据隐私之外，这些法规还要求共享试验数据，确保社区能够以此为基础开展工作。但这无疑让企业陷入了两难境地。

所以，制药企业到底如何在数据隐私与透明度之间求取平衡，同时又能及时、经济且高效地发布研究结果？事实证明，AI技术能够承担起提交过程中超过97%的工作量，大大减轻企业的运营负担。

临床研究结果（CSR）匿名化为何如此困难？

在实施临床提交匿名化的过程中，企业主要面临三大核心挑战：

非结构化数据难于处理：临床试验数据当中，有很大一部分属于非结构化数据。研究结果中包含大量文本数据、扫描图片和表格，处理效率低下。研究报告动辄上千页，从其中识别出敏感信息就如同大海捞针。而且，没有任何标准化技术培训解决方案能够自动执行这类处理工作。

手动过程既繁琐又容易出错：如今，制药企业需要雇用数百名员工对临床研究提交进行匿名处理。整个团队需要经历超过25个复杂步骤，典型的摘要文档就可能需要长达45天的处理周期。而且在手动检查几千页材料时，枯燥的过程往往极易引发错误。

监管指南的开放性解释：虽然法规中提出不少详细建议，但细节仍然不够完备。例如，加拿大卫生部的《公开发布临床信息》规定就要求身份信息的还原风险应低于9%，却并没有详细介绍具体的风险计算方法。

下面，我们将从解决问题的角度，设想能够处理这类匿名化需求的具体方案。

利用增强分析识别人类语言中的敏感信息

以下三大要素，有助于建立技术驱动型的匿名化解决方案：

用于自然语言处理（NLP）的AI语言模型

如今，AI已经能够像艺术家那样创作，也能像医生那样诊断。深度学习技术已经推动AI取得诸多进步，而AI语言模型正是其中一股中坚力量。作为专司处理人类语言的算法分支，AI语言模型特别擅长检测命名实体，例如患者姓名、社保号码和邮政编码。

不知不觉当中，这些强大的AI模型已经渗透到公共领域的各个角落，并受到公开文档的规模化训练。除了知名的维基百科之外，包含40000名患者脱敏数据的MIMIC-III v1.4数据库也成为训练AI模型的宝贵资源。当然，为了提高模型性能，还需要由领域专家根据内部临床试验报告，对模型开展后续重新训练。

通过人机回圈设计提高准确率

加拿大卫生部提出的9%风险阈值标准，可以大致转化为95%左右的模型准确度要求（一般用召回率或精确度来衡量）。AI算法能够查看大量数据并运行多轮训练周期来提高自身准确度。然而，单靠技术改进还不足以为临床应用做好准备，这些模型还需要人的引导与支持。

为了解决临床试验数据的主观性并改善产出结果，分析解决方案在设计上要求与人类协同工作——这就是所谓增强智能。即将人类视为人机回圈中的一部分，他们不仅负责数据标记和模型训练，同时要在解决方案生效后定期提供反馈。通过这种方式，模型的准确度和产出性能都将有所提升。

以协同方式解决问题

我们假设某项研究共涉及1000名患者，其中980名来自美国本土，其余20人来自南美洲。那么，是否需要对这20位患者的数据进行编辑（涂黑）或匿名化处理？是否有必要在同一国家或洲内选择患者样本？攻击者可能会以哪些方式把这些匿名化信息同年龄、邮政编码等数据结合起来，最终还原患者身份？

很遗憾，这些问题并没有标准答案。为了更清楚地解释临床提交指南，制药商、临床研究组织（CRO）、技术解决方案供应商和学术界的研究人员需要联合起来、协同处理。

AI驱动的匿名化方法

有了以上几条基本思路，接下来就是把它们拼凑成完整的解决方案流程。而整个匿名化方案中的各项技术，应当基于我们已经在工作中使用的实际方法。

临床研究报告中包含各种结构化数据（数字与身份实体，例如人口统计信息和地址条目），以及我们之前讨论过的各种非结构化数据元素。必须妥善处理，才能防止恶意黑客将这些内容还原为敏感的命名实体。结构化数据相对易于处理，但AI算法还需要攻克非结构化数据这道难关。

因此，首先使用光学字符识别（OCR）或计算机视觉等技术，将非结构化数据（通常为扫描图像或PDF等格式）转换为可读形式。之后，将AI算法应用于文档以检测个人身份信息。为了提升算法性能，用户可以分享对样本结果的反馈，帮助系统了解该如何处理这些置信度较低的分析内容。

AI驱动的匿名化方法

在匿名化完成之后，还须评估相应的身份还原风险。这项工作通常需要参考人群背景，再结合来自其他类似试验的数据来共同完成。风险评估会通过一组元素着重识别三大风险场景——检察官、记者和营销人员。这三群群体会从自身需求出发，尝试对患者信息加以还原。

在风险水平达到规定建议的9%之前，匿名化流程会持续引入更多业务规则和算法改进，尝试以重复循环的方式增强效能。再通过与其他技术应用的集成并建立机器学习运营（ML Ops）流程，整个匿名化方案就可以被纳入实际工作流当中。

比算法更艰难的挑战—数据质量

对制药企业来说，这样的匿名化解决方案能够将提交周期缩短达97%。更重要的是，这种半自动化工作流程既提高了效率，同时又保证有人类参与其中。但是，构建AI驱动型匿名化解决方案面临的最大挑战又是什么？

其实与大多数数据科学实践一样，这项工作的最大阻碍并不是用于识别命名实体的AI算法，而是如何将研究报告转换为可供AI处理的高质量数据。对于格式不同、样式和结构各异的文档，相应的内容摄取管道经常会无所适从。

因此，AI匿名化解决方案需要不断微调以适应新的文档编码格式，或者准确检测出图片/表格扫描件中的起始和结束位置。很明显，这方面工作才是AI匿名化当中最耗费时间和精力的领域。

临床研究的匿名化新挑战

随着技术的快速进步，临床研究的匿名化难度会不会持续降低、更加高效？虽然AI驱动型解决方案确实令人眼前一亮，但后续还将有新的挑战需要关注。

首先，通过社交媒体、设备使用情况和线上跟踪等方式收集到的消费者数据，正大大提升身份还原的风险。攻击者可以将这些公开信息同临床研究数据相结合，准确识别出患者的身份。更令人担忧的是，恶意黑客在AI成果的运用上非常积极，甚至有可能抢在制药企业的行动之前。

最后，法规也在持续演变，着力适应特定国家/地区的实践态势。也许很快就会有国家公布临床提交匿名化的具体法规，这必将增加企业保持合规的复杂性和成本负担。但所谓前途是光明的、道路是曲折的，AI技术的发展成熟至少为整个行业带来了攻克难题的希望曙光。

责任编辑：姜华来源：至顶网

隐私保护：AI实现医疗保健临床数据匿名化

隐私保护：AI实现医疗保健临床数据匿名化

临床研究结果（CSR）匿名化为何如此困难？

利用增强分析识别人类语言中的敏感信息

用于自然语言处理（NLP）的AI语言模型

通过人机回圈设计提高准确率

以协同方式解决问题

AI驱动的匿名化方法

比算法更艰难的挑战—数据质量

临床研究的匿名化新挑战

Recommend

Twitter edit button enters testing phase, headed to Blue users soon

专注于研发新一代靶向核素偶联药物的药明博锐完成近三亿元A轮融资

百余位顶级投资人齐聚无锡，DEMO CHINA创新中国峰会即将揭幕

加拿大全国范围互联网中断事件为CIO提供的主要教训

飞书 Android 升级 JDK 11 引发的 CI 构建性能问题

房产公司佣金管理系统，要如何搭建？

如何实现端到端网络切片？

微软为Windows Server添加虚拟核心许可

2022年中国海底电缆行业区域市场格局分析华东地区为发展重点区域【组图】

三星S21影像优化方案来了不及S22但有“补偿”方案

About Joyk