1

智能文档处理IDP关键技术与实践-高翔

 1 year ago
source link: https://www.52nlp.cn/%E6%99%BA%E8%83%BD%E6%96%87%E6%A1%A3%E5%A4%84%E7%90%86idp%E5%85%B3%E9%94%AE%E6%8A%80%E6%9C%AF%E4%B8%8E%E5%AE%9E%E8%B7%B5-%E9%AB%98%E7%BF%94
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

智能文档处理IDP关键技术与实践-高翔 – 我爱自然语言处理 跳至内容

我爱自然语言处理

I Love Natural Language Processing

ainlp-qun-r2l.png
c73e29a9-4c57-440e-a8c0-42f25c68e077.jpg

什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。

相较于纯文本,文档的信息表达更加复杂,除各种形式的文本信息外,还包括表格、图片等信息。因此要正确理解文档中的所有内容,仅凭自然语言处理技术难度很大,需要结合其他技术。

2ccd266e-50e7-417c-be5d-d3e578e05003.jpg

图 1 常见文字信息表达方式

智能文档处理(Intelligence Document Processing, IDP)技术是针对文档内容自动处理分析的一揽子技术,除自然语言处理技术外,还包括计算机视觉、文档解析等相关底层技术,因此相较于NLP技术,IDP技术更加复杂。在IDP技术中,光学字符识别(Optical Character Recognition,OCR)技术,文档解析(Document Parsing,DP)技术和信息提取(Information Extraction,IE)技术最为核心关键,使用最为广泛。

光学字符识别技术主要解决文字以图像形式展现的问题。很多文字信息在文档中以图表形式展现,甚至很多文档也以图像形式保存,因此需要OCR技术提取文档中的所有文字及其位置进行分析。另外有些PDF文件对文字内容加密,无法直接拿到字符信息,也需OCR技术拿到正确文字内容。

文档解析技术包括不同类型文件协议解析、文档内容统一表示、版面分析技术、表格解析技术等,目的是把不同类型文档及其中各类元素信息用同一套协议表示文档结构及内容,包含图像和语义信息。

信息提取技术指的是根据文档结构及内容信息,使用不同算法对不同文档元素进行信息提取,合并抽取信息结果,并根据业务需求进行输出。

基于以上核心技术,智能文档处理的通用流程如下图所示:

2dc4d72c-0628-4cd1-be4b-a318ac4cb51a.jpg

图 2 通用智能文档处理流程

光学字符识别技术

光学字符识别技术相对成熟,应用范围广,通常情况下,对于清晰的图像,字符识别准确率较高。但是特定的场景下,例如透视、模糊、光线不足、高密度文字等情况下,OCR系统的识别效果下降很大,给实际场景中图片形式的文档处理带来困难。

OCR技术路线通常有两种:

  • 端到端一阶段的方法
  • 检测、识别二阶段的方法

两种技术路线各有优势,没有绝对的好坏。端到端的方法优势在于特定场景效果拟合能力强,但缺点是训练较为困难,效果不太可控。对于一阶段方法,达观常用于印章、车牌等特定场景的文字识别。二阶段方法能够分别在不同步骤达到最佳效果,并能通过业务干预不同阶段输出结果使用较为灵活,因此达观常用于通用文档识别场景,缺点是需要维护两个独立模块,成本相对较高。

6af2526b-3c39-43d3-af98-fcff038d623a.jpg

图 3 OCR主流技术路线

01文本检测算法概览

文本检测算法的目的是找出图像中文本所在位置,通常情况下是以文本片段组成的文本框为检测目标,当然也有针对单个字符的文本检测方式。针对文本检测,目前分为基于回归的方法和基于分割的方法。

基于回归的方法代表算法有CTPN、SegLink、EAST、CRAFT等,这些方法各有优劣,在不同情况下存在效果差异问题。基于回归的方法对规则形状的文本检测效果较好,但对于不规则文本以及长文本检测效果不佳。

基于实例分割的代表算法有PSENet、DBNet、FCENet,能够针对各种形状的文本都能够取得较好的检测效果,例如大量使用手机拍摄导致的文字扭曲变形等问题,因此在实际落地时使用较多。基于实例分割方法的缺点是后处理通常比较复杂,需要针对后处理部分代码进行特殊优化,才能在效果和速度上保证最优。
下表展示了常见文字检测算法及优缺点。

dbe889bf-b939-4b86-8543-8479fdab77c9.jpg

表1 常见文本检测算法及优缺点

02文字识别算法概览

文字识别技术路线主要经历三个阶段:

  1. 以CRNN为代表基于CNN-RNN结构的识别模型
  2. 基于Transformer的Encoder-Decoder识别模型
  3. 基于Vision-Language视觉语义融合的模型。
fdad41c5-c8ff-48d3-96e6-1895a02c307b.jpg

图 4 三种文字识别技术路线

CRNN为代表的模型主要包含两个模块:Vision Model(视觉特征提取)和Sequence Model(文字转录)两个模块。视觉特征提取利用经典CNN方式较容易理解,而文字转录模块利用Bi-LSTM和CTC解码将视觉特征转换成文字序列特征。CRNN模型比较经典,并且在大部分场合都能取得较好的效果,使用较广。缺点是对于文字变形、遮挡等干扰很敏感,容易误识别。

基于Transformer Encoder-Decoder结构的模型,由于能更好地利用上下文信息而提升了准确率,但由于Transformer模型相对较重,在实际使用中需要考虑裁剪蒸馏等方式才能更好落地。

基于Vision-Language的模型,将视觉和语义进行融合,优点是能够获得更多更准确的语义信息,有时会有较好的效果,但通常模型更大,影响识别效率。文字识别完整流程由图像矫正、视觉特征提取、序列特征提取和预测解码组成。一般通用流程如下图所示:

5dd026fb-1c43-4643-90e0-df825587bc31.jpg

图 5 文字识别通用流程

对于上述流程涉及的代表性算法介绍如下表格所示:

3df6a700-794e-46df-b43e-a31e311faf24.jpg

表 2 文字识别主流算法及比较

CTC解码在文字识别中是非常经典的方法,但在复杂干扰场景下会有效果问题,而基于Attention的方法对于困难样本往往能够取得较好的效果。这两种方法是达观产品中的主流方法,可根据场景灵活适配。关于两种方法的网络结构图对比如下图:

c13f72ca-5079-49c0-8bd9-fe308781253e.jpg

图 6 两种文字识别网络结构对比

03达观对于OCR技术的实践和优化

针对文档处理的复杂场景,没有一个通用的技术框架和算法能够解决所有问题,需要针对具体问题进行多种模型优化、流程调整等工作。针对文档OCR识别,常见问题包括文字检测遮盖问题、密集小文本目标检测问题等问题都需要针对性解决。

文字遮盖导致的检测问题比较常见,在实际场景中,例如印章、水印等遮挡导致底层文字检测失效。对于印章,红色印章可以通过通道过滤取得不错的效果,但是对于黑章来说难度增加很多。下图是直观表述同时有红黑两种印章时,对于文字检测的影响。可以看到右侧黑色背景中间结果中,红框范围内文字检测存在模糊判断。

针对遮盖问题,主要有三种方式优化:

  1. 文档预处理消除印章影响,例如红章通过颜色通道淡化去除
  2. 数据层面增强印章遮盖样本
  3. 模型层面增加印章分割设计,强化特征分离。
78aea054-14c2-4efd-befb-67786f87ca19.jpg

图 7 不同颜色印章遮盖对于文字检测的影响

小目标密集文字也是常见的场景,例如银行流水、表单数据、工程图纸等。由于单独的文字区域占整个图像面积较少,加上密度较大,不经优化会出现大面积的漏检、误检现象。针对这种场景,达观除增加数据层面的积累外,在模型层面进行多尺度的特征设计,大大提升小目标的召回率和准确率。下图展示对于流水结果的检测结果,此优化已成功应用于实际产品项目中。

1dee742f-87c2-4b5c-9437-17b562cdd482.jpg

图 8 银行流水密集型文字检测优化

文档解析技术

文档解析技术是智能文档处理中另外一项关键技术。

实际场景中不同类型的文档在处理中常会遇到以下问题:

  1. 电子版PDF或扫描件等文件,会丢失段落、表格等结构化信息;
  2. 版面与表格等文档结构信息如何供算法使用;
  3. 学术算法常常面对结构简单规范的文字形式,与工业真实场景存在鸿沟;
  4. 不同文档协议格式表达复杂,如何将不同类型的文档统一表示,才能够满足不同上下游任务的处理。

文档解析主要工作包括以下三个方面:

  1. 不同类型文件协议解析,例如PDF、Word、OFD等,需要映射到统一抽象的文档格式;
  2. 版面还原,识别每页各种元素,如页眉页脚、标题、段落、表格、插图、目录等;
  3. 表格解析,将表格中的信息准确还原为二维矩阵结构。
faa1272b-f996-421c-865d-981f93d21805.jpg

图 9 工业界和学术界文本处理对象差异巨大

01文档格式解析技术

常见的文档格式包括Word、PDF(Portable Document Format)、OFD(Open Fixed-layout Document)等,大部分文件协议的设计都以对象树为主要结构。以PDF协议为例,下图展示PDF文件的实际内容以及文档元素对象的组织结构:

6c95f761-28ac-451e-a7c0-9a29e12f21c7.jpg

图 10 PDF协议文档元素对象组织结构

PDF格式在渲染展示上有很大优势,能在不同设备和系统环境下稳定保持渲染内容的一致性,对阅读友好,但PDF解析编辑相对困难,因为PDF协议内置对象类型有限,一些类似表格、页眉页脚等要素类型信息缺失,文字、线条、形状等要素也只包括内容、颜色、大小、位置坐标等信息,需要根据渲染的结果判断元素类型并进一步处理。常见的优秀PDF开源库包括PDFBox、MuPDF、PDFMiner等。OFD由工业和信息化部软件司牵头中国电子技术标准化研究院成立的版式编写组制定的版式文档国家标准,类似PDF,属于我国的一种自主格式,例如OFD格式的发票目前已得到广泛使用。而基于OpenXML的Word格式docx解析起来相对容易,能够拿到包括样式在内的丰富信息,除微软官方提供的SDK外,也有很多优秀的开源项目。

02版面还原技术

版面还原技术就是分析文档中每个页面有哪些类型的元素及的各元素大小位置形状等图像信息,通常情况下根据渲染后的页面图像进行分析,因此主要使用到计算机视觉技术。版面还原技术的意义主要还是和图像、PDF等文件格式缺乏高层次文档元素对象的问题相关,例如页眉页脚在很多业务场景中需要被过滤掉,但在PDF文件中,页眉页脚只是一个单纯的文本框,仅凭文字信息不足以判断此文本框是否是页眉页脚。虽然可以利用有些规则的过滤掉页眉页脚,但规则通用性较差。除此之外,还需要划分段落、标题、目录、表格、插图等更多页面区域,文档元素类型还可能根据业务场景发生改变。

基于计算机视觉的方式有较好的通用性,和人类观察文档版面信息过程一致,通常使用基于目标检测方案和图像分割方案,两种方案各有优缺点。对于版面还原这个任务,有明确的业务属性,一个区域要么属于段落,要么属于表格或者其他类型,不会存在既是段落又是表格的情况,使用目标检测的方案,就要额外梳理重框问题。而使用图像分割的方案则不存在这个问题,从输入输出的角度更适合,但图像分割资源要求相对较高,例如基于FasterRCNN的MaskRCNN,在原模型基础上扩展了一个Mask分支,速度相对会慢一些。

aaf4e2ff-af65-4f7b-8dbb-868c3ff75368.jpg

图 11 基于FasterRCNN的版面还原效果

82fafe2e-9886-434c-88c2-5b5ffee0e110.jpg

图 12 基于MaskRCNN的版面还原效果

03表格解析技术

表格是信息承载的重要方式,作为一种半结构化数据,被大量应用于文档中。对于表格信息,通常有电子格式(excel、csv、html)和图像格式两种形式,电子表格相对于图像表格,不仅能够渲染供阅读,还可以根据相关协议进行指定单元格内容的读取、修改等。此处介绍的表格解析技术主要解决图像形式表格结构内容识别问题,而不是excel这类电子表格识别问题。特别地,电子版PDF文件中的表格由于缺乏相关协议,也需要使用图像方式来解析。

表格的类型一般根据表格线是否完整也可以将表格划分成3种类型:全线表格、少线表格、无线表格三种,针对以上三种表格的解析方法也有差异。

ed900c42-c5bc-450b-b4d9-056db632650d.jpg

图 13 三种表格类型划分

表格解析的目标是找到文档中的所有表格区域并将表格结构还原成二维矩阵。从技术框架上看,表格解析有端到端一阶段的方式和区域检测、结构解析两阶段的方式。在我们的测试中,整体准确性上来说端到端和二阶段方法差别不大,但考虑到业务上的快速修复性,达观选择二阶段方式。

端到端方式代表性的方法有TableNet、CascadeTabNet等。TableNet采用图像分割思路,将图片送入骨干网络,然后通过两个分支分别生成表格区域和列的mask,然后通过规则生成行,最终得到具体单元格的内容。CascadeTabNet基于Cascade R-CNN,先检测出表格区域同时对表格类型划分(有线、无线),然后检测单元格区域,最后根据表格类型做后处理得到最终的表格结构。这些算法在公开数据集效果不错,但因端到端难以解决具体badcase,在实际业务使用上存在一定局限性。

二阶段方式主要是表格区域检测和表格线条检测两大块。表格区域检测问题相对简单,基于目标检测或分割都可以实现,主要问题是实际业务定义差异会影响模型效果,需要在数据层面多下功夫。而表格线检测是技术重点,因为表格解析算法最终可以看作是表格线识别的问题,有了表格中所有表格线,就能还原整个表格结构,解决方法有基于传统CV的算法和深度学习算法。

基于传统CV的算法,以经典的霍夫变换为代表,优点是不需要数据标注且不需GPU资源,算法成熟稳定,对于电子版PDF表格效果很不错,但拍照扫描等场景中扭曲、光照等因素导致泛化能力一般,需要在图像预处理和后处理下很大功夫。基于深度学习的算法,如UNet,优点是对于上述扭曲、变形、光照等泛化能力强,缺点是需要大量的数据标注,计算资源也比较高。

通过使用基于深度学习的算法,能够较好解决传统算法对于图像质量要求高的问题,下面两图展示了利用分割的思想识别表格线的效果,可以看到虽然原图质量不佳,要么线条特别模糊要么整体扭曲透视较为严重,但整体解析效果较好。

662d120b-dc35-41fc-8637-35da268193fe.jpg

图 14 线条模糊图像表格线检测效果

b246836f-f010-4e89-af4e-3627d0f23e31.jpg

图 15 揉捏扭曲表格线检测效果

信息提取技术 

不同于传统纯文本实体识别,实际场景中文档信息提取挑战更大,主要有以下困难:

  1. 文字表现形式复杂,文档内有页眉页脚、表格、图片等多种文字信息表达方法,需要分别处理;
  2. 领域知识欠缺,实际文档使用词汇和行业场景高度相关,例如产品、型号等专名,需要针对专有领域数据优化模型;
  3. 信息点上下文长度跨度大,既有短文本实体信息抽取也有长上下文抽取,例如招股书,需要抽取公司名称、募集金额等短文本信息,也需要公司概况、高管基本情况等长文本信息,技术方案跨度很大;
  4. 软硬件资源限制,除单纯模型效果外,还要考虑推理时间、硬件成本这2种度量维度,需要根据实际情况灵活选择平衡。

针对以上问题,不仅需要针对具体问题一一解决,同时需要设计一个优秀的信息提取框架,在实际使用中能够灵活配置实现一种或多种信息提取工作。下文将介绍达观在相关问题解决中的经验。

01纯文本抽取vs文档抽取

相对纯文本抽取,文档信息抽取有以下区别:

  1. 文档格式众多,实际场景文档类型除word等可编辑格式外,还存在PDF、jpg等不可编辑格式,从中拿到文本信息并且符合阅读顺序就很困难。本文前面介绍的文档解析技术主要解决不同格式文档文本信息提取的问题,为文本抽取打下基础。
  2. 语义上下文跨度大,除传统的信息点附近上下文信息外,还包括章节标题甚至文档类型等跨度更远的上下文信息。
  3. 高维文本问题,文字信息不光和本身的语义信息相关,也和其样式、形式(例如表格、图片)相关。
  4. 针对文档信息抽取相关研究较少,目前大部分成熟技术还是基于纯文本数据研究居多,虽然近几年多模态信息抽取、长文档信息建模也有不错的研究工作,但实际落地过程中少有系统化的成熟经验供参考,需要厂商自己开发研究。

针对文档抽取,除各类算法本身效果优化提升外,设计一个功能丰富且合理的抽取框架非常关键。为满足以上需求,达观数据设计了一套基于微服务架构的抽取框架,通过将一个复杂的抽取任务分解成多种抽取子任务单独处理,最后再将结果合并返回最终抽取结果。

243c1df8-8c11-43f9-a75b-8c307cb88f1c.jpg

图 16 基于微服务的抽取框架

实际任务中,根据文档类型的不同,抽取中心通过推送不同抽取类型消息进入队列,下游相关抽取算法模块进行独立处理。简单的抽取任务例如对于财务报表的信息提取,抽取中心只需生成表格单元格抽取信息,并提供表格相关上下文信息。而复杂的例如招股书、债券募集说明书等长文档抽取,抽取中心需要按照字段类型进行不同抽取信息的消息分发,并提供公有上下文和各算法所需私有上下文,下游各类型抽取算法模块同时工作。上述方案还有一个优点是针对特殊场景的抽取,可以灵活裁剪服务类型,或根据业务量针对性调整某类抽取算法服务副本数达到资源和业务量的平衡。

在算法设计上,除之前基于联合标注的序列标注抽取实体关系的工作外,达观也尝试使用统一信息抽取(UIE)框架。因为达观IDPS平台除实体抽取任务外,还支持关系抽取、元素抽取等任务,不同任务类型的网络结构差异导致数据和预训练模型复用受限造成资源浪费,系统也更复杂。通过设置不同抽取类型的Schema,利用UIE端到端生成结构化结果的思想,可以完成单模型多任务的抽取效果。

e6f539b5-07f6-477d-92fc-ea05c716b34c.jpg

表 3 不同任务在UIE下的schema设计及效果

02通用模型vs领域模型

当前以大规模预训练语言模型为基础进行语义表示,下游再根据任务类型设计网络结构,已成为各类NLP任务的基本范式,在很多场景任务下不仅整体性能更好,所需要的标注数据也更少。但公开的预训练语言模型通常使用通用语料数据训练,在迁移到特定领域下游任务时效果会打折扣。最主要的原因就是领域间数据分布差异很大。

具体表现如下:

  1. 训练数据不一致。例如金融场景的特定词汇如股票、基金、利率、资产等词汇概率远高于其他领域语料;
  2. 预测标签分布不同,例如在金融危机相关数据,负面标签远多于正面标签次数;
  3. 上下文信息不一致,例如在表格数据中,上下文信息不仅包括同一单元格内相邻文字,也包含相同单元格、行表头、列表头等。

为解决领域自适应问题,研究方向主要分为以模型为中心的方法和以数据为中心的方法。从实现方式上来说,使用以数据为中心的方法更加灵活,应用面更广,并可持续训练迭代。在实践中,达观数据已服务众多证券、银行等金融机构,积累了大量的金融领域语料和相关下游任务训练数据,在金融领域的继续预训练语言模型可以解决领域知识、数据分布上存在的差异,提高金融文档相关的NLP下游任务的效果。

具体来讲有以下两方面工作:

  • 数据处理层面,收集从公开网站上获取的金融财经新闻公告等数据,结合达观积累的金融领域文本数据,经数据清理后得到数百万条预训练文本数据
  • 模型设计层面,选用中文 RoBERTa 作为基础模型,采用 whole word masking 的掩码方式,进行继续预训练。经过测试,使用迭代后调优后的预训练语言模型在各个金融领域的下游任务中,效果普遍提升2~3%

另外从使用角度上来看,领域迁移需要大量的技术知识,对使用人员算法技术要求高,而达观IDPS产品的使用人员更多是业务老师、知识工程师等非技术人员,因此借鉴AutoML的思想,让系统能够在有限的迭代次数内探索最优模型和超参,并自动集成。具体来说,会考虑训练文档的页数分布数据、标注数据的页码位置分布、机器性能资源等多种信息进行自动学习,在干预较少的情况下得到相对较优的模型效果。

03短文本抽取vs长文本抽取

通用文本抽取技术研究所需处理的文本上下文较短,例如Bert可处理长度512个字符,能够满足大部分场景,如果超过此长度需要进行窗口滑动。在实际场景中,例如招股书抽取,上下文长度远超512个字符。

通常长文本抽取有以下困难:

  1. 数据量少,正样本过于稀疏;
  2. 数据分布不均衡,负样本远比正样本多,而且Easy Negative 数据远比 Hard Negative 数据要多,导致在训练过程中,经过少量迭代就会被模型充分学习并正确预测,导致数据中的“困难负样本”和正样本对模型训练迭代的影响过低,无法被充分学习;
  3. 端到端方式缺乏灵活性,实际使用受限,SOTA 方法常使用端到端的方式,但工业场景常常需要精准监控各环节贡献和精准优化各个模块。

为解决以上问题,除修改模型结构、参数让传统经典网络更好建模长文本外,也可以通过业务特征进行流程优化,主要思想是根据关键词或者相关标题上下文,将训练或预测数据预处理,仅在有限的文档区域内建模,减少负样本带来的数据不均衡问题,同时能大大提升训练、预测速度。例如达观使用章节拆分定位技术,利用文档解析得到的文档目录结构,根据标注数据缩小建模范围,例如可以将实体抽取范围定位到某章甚至某些段落中,将几百页的上下文信息压缩到最相关的几个自然段,提升模型性能,在实践中取得非常好的效果。

04三维度量评价体系

一般学术研究最重要的优化目标是效果,对于资源、时间的考量权重相对较低,而工业落地往往相较于学术界更注重于时间、空间与效果的综合结果,我们称之为三维度量。在工业落地中,客户软硬件差距巨大,需要适配不同部署硬件方案,并可能会有硬件瓶颈导致方案大改,例如有些客户没有GPU或相关资源非常有限,导致基于深度学习的算法方案受限。与此同时,项目目标考察点也不仅仅只关注效果,也需要关注使用时的响应时间、处理能力等多种因素,需要根据实际情况多方面权衡。另外由于实际场景资源有限,需要充分利用已有资源,不同任务合理使用资源、灵活支撑业务流量变化,对于系统的架构和调度能力提出很大要求。

为了能够满足三维度量评价体系,实际生产中对于具体模型需要使用裁剪、蒸馏、量化等方式进行模型体积、资源占用优化的同时,也希望能够尽量保证原有模型效果,挑战比较大。在实践中,达观总结多套成熟的系统算法配置,根据项目需求选择最佳配置自动完成相关优化工作。例如Bert蒸馏,教师网络使用经典base Bert模型,共有12层网络及超过20M的参数保证数据拟合准确性,而学生网络根据实际场景资源限制使用小8倍的tiny Bert甚至Bi-LSTM保证预测精度。下图展示达观IDPS中使用的知识蒸馏流程。               

4155e4f9-3fdc-4eb8-ba8e-c7a798dd2318.jpg

图 17 知识蒸馏在达观IDPS中的使用

另外在服务架构上,考虑到资源受限尤其是GPU资源受限问题,将模型网络拆分,将重计算且多任务公用的语义编码网络独立出来作为服务并部署在有限的GPU资源上,通过远程调用支撑各个下游任务。达观基于此提出Transformer as a Service的方案,此方案的优势是方便对 GPU 资源进行集中管理,使用 Redis等中间件实现分布式缓存,优化整个大任务的耗时,并能很好支持跨环境、跨架构的不同服务(很多客户CPU和GPU机器独立部署运维),同时方便预训练语言模型整体效果的迭代、优化。经过验证,在损失1个点左右精度的效果情况下,整体资源要求大幅降低,并已使用在多个项目中。

8a62a4c5-c548-4517-b541-cc207a3af091.jpg

图 18 Transformer As Service 的使用示例

问题与展望

前文介绍了智能文档处理中的一些关键技术的原理及使用,虽受制于内容较多篇幅有限,但仍可以看到相对于纯NLP或者CV,智能文档处理系统更加复杂,且系统化研究工作较少,需要长期投入较多资源深入研发。又因为处理对象是文档,和实际工作结合紧密,因此往往实际落地时被要求和人工对比,效果要求很高。整体来看,智能文档处理在实际场景中的落地工作主要有以下三方面问题:

01场景选择问题

场景选择问题是很多项目落地的关键问题。随着人工智能技术的发展,之前很多困难的问题得到解决或者改善,例如语音识别、人脸识别等技术已经比较成熟并在多个场景中使用,给AI相关技术项目的落地增强了信心。对于智能文档文档处理领域,很多项目场景中对于文档处理部分,希望能够借助IDP技术提高效率,通常情况合理的使用流程可以达到这个目标。

然而实际中,因为IDP系统对标是白领工作者,加上对于AI能力认知偏差,导致很多场景中对于IDP系统的使用方式和效果要求不合理,最常见的误区就是希望系统完全代替人工整个流程百分百由机器执行,并且整体准确率超过人工。机器对于人工来说最大的优势就是速度和细致,但是对于文档处理这种智力密集型工作来说,一些复杂业务场景尤其是需要逻辑思考的文档处理,系统的处理效果还是比人工稍逊。因此在这种场景下,比较合适的方式是机器预处理,解决一些简单的问题,再由人工复核,提升整体效率,例如债券募集说明书的审核,目前很多券商已经成功使用机器预审人工复核的方式提升效率。而对于简单的场景,或者有相关系统能够进行业务校验的场景,则可以完全使用机器,例如财务报销、财务合同审核等,只要关键信息点和外部数据交叉验证没有问题,即可自动通过,而有问题的文档再通过人工处理。因此合理的场景选择,人机交互的流程设计非常重要,能够实现最终整体的项目目标。

02业务知识问题

业务知识问题是另外一个常见问题。之前讨论的IDP核心技术和业务知识联系较少,在实际场景中,系统对于业务知识的缺失甚至比模型数据匮乏更严重,例如相同的合同,法务和财务所关心的业务信息点有很大差异,仅有财务知识不能完成法务审核。业务知识本质上不是一个AI问题,是根据场景总结的工作要求或经验,这种知识逻辑现阶段AI系统很难准确学到,通常需要通过编码方式表达,或通过知识图谱进行一定的知识推理。因此实际落地过程中,业务分析师和知识工程师角色非常重要,需要梳理实际的业务流程和相关信息点,并配合编码人员进行程序编写,模型训练,最终业务知识和AI模型配合才能完成具体业务工作。对于IDP系统,业务知识沉淀的深度和广度尤为关键,需要项目上不停积累。

03产品化问题

产品化是关系到智能文档处理具体落地的成本和范围最关键的因素。不同于其他AI产品,IDP产品面向实际业务,因此使用人员的主体除技术人员外,业务人员占大多数,如何设计产品交互,组合产品功能,让业务人员更容易上手是关键问题,很多技术概念知识点需要经过产品包装,不能技术思维为导向。于此同时,也要满足不同场景中模型和业务的快速订制工作,底层核心技术能力要容易被二次开发方便技术人员使用,例如模型调参、接口调用等技术功能的丰富性也很重要。好的产品设计应该要满足上述两点,根据用户角设计产品功能和界面,该简单时简单,该复杂时复杂。

另外针对具体的业务场景,产品化对于项目复制帮助很大。当业务场景比较具体时,说明相关业务知识比较清晰,数据类型比较固定。如果此场景是行业通用,则可以花较多时间针对性优化模型效果,丰富业务知识,甚至进行产品界面改造升级。例如达观在IDPS系统平台基础上,结合业务场景知识,开发出的智能流水审核、募集书审核、财报审核等产品,能够做到开箱即用,大大方便项目交付降低成本,而且从本质上来讲,上述产品是IDP核心技术基础上,结合行业知识,进行模型优化改进的一个个产品插件,可以不断积累,让IDP的产品能力越来越强,也能反推IDP相关技术不断提升,解决更多的场景问题。

相信随着技术和产品的发展,智能文档处理IDP能够应对更广更深的文档处理工作,达观数据也会持续投入相关产品技术研发,深耕行业场景应用,为众多客户持续创造更大的价值。

作者简介

高翔,达观数据联合创始人,达观智能文档审阅IDP和OCR总负责人。自然语言处理技术专家,上海交通大学通信专业硕士,上海交通大学校友会AI分会副秘书长,复旦大学校外研究生导师,2019年获上海市“青年科技启明星”人才称号,首批上海市人工智能高工职称获得者。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK