2

医学数据科研——数据自定义导出

 2 years ago
source link: http://www.woshipm.com/data-analysis/5411684.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

医学数据科研——数据自定义导出

2022-04-26
0 评论 7 浏览 0 收藏 16 分钟
释放双眼,带上耳机,听听看~!
00:00
00:00

编辑导语:数据统计分析是各行业的常见业务,此时如果能提升数据分析的效率,将可以为业务人员降低操作成本,比如在数据导出时,我们是否能实现自定义导出,快速整理目标字段?本篇文章里,作者结合医疗场景,对数据自定义导出一事做了解读,一起来看一下。

QesnGcmEHlIrydPhGcHh.jpg

医学科研是医学进步的动力。通过科学的方法对医学数据进行整理分析,进而得出医学中的诊疗规律,并应用于相同病症的患者,进而提高患者的治愈率。

患者的诊疗数据存储于医院的信息系统中。由于医院信息系统并未提供医学科研相关的分析工具,所以需要使用专业的分析软件对数据进行统计分析。

首先,通过搜索功能找到符合要求的患者记录。然后,设法将科研相关的字段导出。

如果人工将数据导出,那么操作过程将会变成如下过程:从患者列表逐个进入患者详情,从患者详情中找到目标数据。

如果科研的数据涉及到多种业务,那么在同一条患者记录内部,就需要跨多张表单查找目标数据。并手动复制粘贴到系统外的Excel表格中。

整个数据导出过程中涉及多次打开系统、关闭系统,打开表单、关闭表单,在表单内查找目标字段,耗费了大量的时间成本,还存在数据粘贴在错误位置的可能。

如何能够快速将目标字段整理出来?就是我们今天讨论的主题——数据自定义导出。

二、数据自定义导出

数据自定义导出,指的是从变量池中根据需求选中符合要求的目标变量,以某种格式的文件一次性从系统中全部导出。

例如,系统提供600 个变量可用于数据导出。在做胃部分切除术相关的研究时,从中选择了30个字段导出为CSV文件。

其中, “600 个变量”就是“变量池”,指的是系统中允许被导出的所有字段。

  • “30 个字段”就是“目标变量”,指的是本次需要导出的变量。
  • “CSV 文件”就是“某种格式的文件”,指的是以数据导出后的使用目的为导向,生成相应格式的文件。
  • “从 600 个变量里根据需求选择了 30 个变量”,即“自定义”,指的是用户可以根据需要从变量池中选择任何变量,并且变量数量不受限制。

首先,将不同业务内、不同表单内的导出频率高的字段组合在一起形成变量池。省去查找目标字段时的,表单切换和表单阅读的时间。

然后,将在数据导出时,对数据格式进行处理,使其满足目标软件的要求,然后将导出后的数据直接导入到目标软件中。缩短了数据格式进一步加工的时间。

通过这两步,大大提高数据导出的效率。

1. 变量池

医疗业务复杂,一个人无法处理所有的业务,所以需要将业务拆分成不同的部分,由不同的专业人员负责不同的业务范围,只有这样才能让系统正常运行。

例如,张技师和王技师分别负责实验室检验部分和影像检查部分的业务。如果张技师去负责影像检查部分的业务,由于对影像业务的完全不熟悉,该段时间内的影像检查部分的业务将停滞。与之相关的业务都将收到影响。

医院信息系统中与患者诊疗相关的系统包括门急诊电子病历系统、住院电子病历系统、实验室检验系统、影像学检查系统、手术麻醉系统等系统。

住院电子病历系统中包括住院医生工作站、住院护士工作站、病案管理工作站等,存储了患者的长临医嘱、用药信息、日常病程记录、既往病史、家族史等信息。

不同的模块、不同的表单存放不同的患者信息。查找需要导出的字段时,需要翻阅不同的系统,在系统内部切换不同的表单,在表单中找到需要导出的字段。整个过程耗费大量时间,严重影响字段查找效率。

例如,导出患者胃部分切除术手术及手术前后的相关信息,则需要前往手麻系统、电子病历系统、检查系统、检验系统等。在某个子系统中,仍然需要找到患者,并且进入患者详情找到对应表单内容。整个过程耗费大量时间。

有没有一种可能将可能用于导出的字段放在一起,不需要切换系统、表单逐个查找。

变量池就是将不同业务系统、不同表单中可能会用于导出的字段名称放在一起。

变量池具备字段数量多、字段多值性的特点。

1)字段数量多

字段数量多,指的是可以用于导出的字段数量比较大。

出现这种情况的原因是,不同科室在做数据分析时关注的重点不同,需要导出的字段不完全一致。为了满足这么多的导出需求,就需要把可能涉及到的字段全部放在变量池中。

一个分析方向可能会导出二三十个变量,需要支持几十个可能的分析方向。对字段进行去重以后,变量池内的字段数量同样也会达到几百个。

变量池内字段较多时,通过人眼从中找到某一个字段,耗时较长。

可以按照字段所属业务系统、所在业务表单对字段进行分组。直接选中目标字段所在表单,缩小字段查找范围,提高字段查找效率。

也可以通过搜索功能,通过输入目标变量的字段名,直接定位到目标变量所在位置,提高字段查找的效率。

例如,为了支持肝脏介入科的数据分析工作,将可能用到的字段进行整理,共计整理出 300 个字段(下图字段仅做示例)。

将字段按照所在表单进行划分人口学、现病史、检验、手术,可以通过点击左侧的表单列表,将字段的范围缩小到几十个变量。也可以在搜索框内输入字段名,直接定位到该字段的位置。

医学数据科研-数据自定义导出

2)字段的多值性

字段的多值性,指的是同一个患者的同一个字段会有多个结果。

例如,张三的血常规中的白细胞计数字段有 11 个结果。

产生字段多值的原因是,患者症状在变化。为了让记录不断变化的病情,需要做多次检验检查,并据此调整治疗方案,最终产生了多个值。

例如,患者张三随着放疗的进行,身体状况在不断变化。通过检验检查等手段来测量身体的各项指标。放疗 2 个月,共做了 7 次检验。使得检验部分的字段产生了 多次结果。

而研究时往往关注患者在某个状态下的指标情况,即从众多结果中找到某一个特定的结果。

例如,研究胃部分切除术的情况时,需要了解术后第一次白细胞计数的结果。此时就需要精准的找到患者的该次白细胞计数的值。

所以就需要给具有多值性的字段增加一个限定条件。

常见的限定条件有:

  1. 针对数值型字段有全部、最大值、最小值、最早一次、最近一次、平均值。
  2. 针对文本型、选项型日期型字段有全部、最早一次、最晚一次。

上述说的限定条件都有一个默认前提,“在所有的时间范围内”,即在患者的整个就医时间范围内,但是实际研究中,我们可能需要的是患者在某个特定时间内某个状态的结果。

例如,需要患者在“最近一次胃部分切除术后的第一次白细胞计数结果”。其中,特定时间值得是“最近一次胃部分切除术后的所有时间”。

此时需要先找到该患者的最近一次,胃部分切除术的时间点,最后以该时间为基准时间点。然后去所有的血常规检查中查找白细胞计数。根据血常规的检查时间,定位到具体的某一次结果。

这种限定类型称之为“事件-时间”型,即先通过某一个具体的事件,以该事件发生的时间点作为基准,在该基准前 / 后某段时间范围内,目标字段的特定值。常见的事件有“放疗、化疗、手术、用药、临床诊断、病理诊断等”。

2. 特定的数据格式

科研的需求一直存在,为了满足科研需求,专业统计分析软件应运而生,并逐步发展。常用的软件有spss、SAS、R等。其中SPSS从1984年开始发展,到2009年已经将数据管理、数据分析做到非常完善的地步。

而2009年,中国首次将医疗卫生信息化定性为支撑改革的支柱,在国家级层面提出发展信息化的要求。此后医院信息化软件迅速发展,前期以业务信息化为主。2014年才开始重点转移到健康数据上。

如果此时医院信息系统再集成或者开发统计分析软件,需要投入大量的金钱和精力,而且医生的接受度如何都是未知数。医院自行开发或采购的意义都变得不大。

造成了现在的情况,医院现有的软件系统中医学统计分析部分缺失,统计分析工作需要在专业统计分析软件中完成的。所以当医生想要做医学统计分析时,就需要将数据从在医院信息系统中导出。

数据导出后,需要手动对数据格式处理,才可以满足目标软件的需要,浪费医生的时间。

怎么才能让数据导出后,不需要额外的数据处理,直接被目标软件所使用,从而减少医生时间的浪费。

在数据导出时,由系统完成数据格式处理的工作,数据被导出后可以直接导入分析软件,从而节约数据处理的时间。

在数据导出时,根据目标软件的需要,生成特定数据格式的文件。数据文件被导出后可以直接导入分析软件,从而节约数据处理的时间。

特定的数据格式,指的是医疗信息系统往统计分析软件传输数据时,按照统计分析软件对数据格式的要求生成数据。

以将数据导入spss分析为例。

spss对导入数据有以下要求:

  1. 文件格式为Excel或csv。
  2. 同一个案的数据要单独占一行。
  3. 每一个测量指标只占一列。
  4. 测量指标的结果为数值型。

如果导入的数据不符合要求,则数据导入失败,需要手动对数据进行调整,然后再重新导入。

为了保证数据能够直接导入spss中。导出的数据需要满足:

  1. 文件格式为Excel或csv。
  2. Excel中同一个案的数据要在一行,每一个测量指标占一列。
  3. 确保数值型字段的数据类型为数字,而不是文本。
  4. 将枚举型的值替换成数字。

系统将处理好格式的数据,以Excel文件的形式传递给前端页面。用户将文件下载下来以后,直接导入spss做分析工作。

由于医疗信息化和专业统计软件的发展速度不均衡,造成了医院信息系统与统计分析软件互不相通。所以医学数据统计分析时,需要先数据导出,再导入分析软件。

2014年,中国提出“46312”计划,开展“健康中国云服务计划”,国内的医疗大数据产品迅速崛起。临床大数据公司纷纷成立,医院开始建设临床数据中心。医院信息化从业务信息化发展到临床数据精细化。

各大数据平台不仅开始增加传统的统计分析工具,也增加了基于深度学习、机器学习的的新的分析方法。这使得我们可以在大数据平台中完成统计分析工作。不过易用性、使用习惯仍需要不断打磨。

相信不远的将来,再做医学数据统计分析时,可以在院内大数据平台中,无缝完成数据分析工作,不再需要将数据导出。

PS:与之前完成的数据的高级搜索刚好组成一体,通过高级检索搜索到目标患者,然后将需要的字段导出。

本文由 @山南 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK