智能文档处理技术揭秘:如何低成本实现高准确率的文档信息抽取?

来源: 云巴巴 2021-12-17 11:29:14

导读  

智能文档处理(Intelligent Document Processing ,简称 IDP )是来也科技智能自动化平台的核心能力之一。IDP 基于光学字符识别(OCR)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等前沿技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化。

IDP 最常见的应用场景之一是从各种类型的文档中抽取关键信息,本文介绍机器学习在文档信息抽取中的应用。对 IDP 产品及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#

背/景

企业中存在大量需要从文档中抽取信息并进行处理的业务场景,例如从发票、报销单、发货单等不同类型的文档中抽取所需字段,进行录入、校验、比对等操作。因此,文档信息抽取是智能文档处理平台的核心能力之一。通常情况下,文档信息抽取需要用到机器学习技术。我们知道,训练一个机器学习模型需要一定规模的标注数据,在文档信息抽取任务下训练机器学习模型面临两个挑战。

第一,文档的类型繁多,即便是同一个类型的文档,其版式也可能存在多种。下面是几个中文完税证明的例子,我们可以发现,它们虽然都是完税证明,但版式差别很大,尤其体现在明细表格部分,表格的字段数量、字段顺序都不太一样。这意味着,如果使用传统的方法,需要训练多个机器学习模型才能满足不同版式信息抽取的需求

图片

图片

*完税证明示例(图片来源于网络)

第二,很多文档类型是企业特有的,也就是说我们很难提前收集到数据并训练好模型,而是需要基于企业特有的文档数据,在小样本下训练出可用的模型,否则模型的训练成本太高。下面是几个英文发票(Invoice)的例子,我们可以发现它们不仅版式不同,而且每一类的数量都不多。

图片

图片

*英文发票示例(图片来源于网络)

本文中,我们介绍来也科技 IDP 平台中用到的文档信息抽取方法,该方法充分利用文档的视觉特征和语义特征,能够在较少样本的情况下训练出效果很好的模型,且具备较强的泛化能力,从而快速满足企业中多种文档信息抽取的需求。

技/术/方/案

我们的技术方案以 OCR 识别的结果作为输入,充分利用视觉和语义信息建模,在低成本(标注数据少、资源占用少)的情况下完成文档信息抽取任务。该方案将 OCR 和信息抽取完全解耦合,这样设计有两个优点:

OCR 和信息抽取相互不受影响,可以分别进行优化。

同一个 OCR 引擎可以对接不同的信息抽取模型;同理,同一个信息抽取模型也可以对接不同的 OCR 引擎,以满足不同场景下的需求。

OCR 引擎完成识别和预处理后,由三个子任务构成完整的 pipeline ,如下图所示。下面我们分别介绍。

图片

文本块序列化

这个任务的目的是将 OCR 识别到的文本块,按正常的阅读顺序重新进行排列,解决内容折行、数据分组的问题。

如在下面的完税证明示例中,税收详情中存在较多的内容折行, OCR 识别引擎通常会按从左到右、从上到下的顺序返回。如图中所示,OCR输出的文本块的顺序为图上标识的数字(1、2、3……11),显然这个顺序既不符合阅读顺序,也会打乱语义和排版信息。如果不进行调整,会导致模型无法准确的得到正确的语义信息和结构信息

图片

通过上述的例子可以发现,文本序列化任务和具体文档类型基本无关,因此我们可以通过大量标注数据训练一个通用的文本块序列化模型,在其他项目中直接使用,降低项目启动的代价。以下是经过文本块序列化模型重排序后的顺序,在这个排序基础上进行一定的后处理,我们就可以还原出文档中的字段。

图片

文本块分类

对文本块进行序列化之后,我们的下一个任务是利用文本分类的方法获得每个文本块对应的标签,即每个文本块属于哪个待抽取的字段。在这个任务中,我们将每个 OCR 输出的文本块作为独立的分类目标,利用多分类的方法获得每个文本块对应的信息标签。通过文本块的文本语义、空间位置、上下文关系、排版格式等视觉特征,使用统计模型进行建模并训练文本块分类模型。以下是文本块分类模型用到的主要特征:

语义特征:利用文本块包含的文本信息生成的特征;

空间位置:利用文本块在文档上的位置,以及和其他文本块的相对位置关系;

排版格式:利用文档的各种排版信息,如表格、列表等。 

抽取结果组装

通过使用以上两个子任务的输出结果,我们就可以进行最终的抽取结果组装。以下面这个数据为例,抽取结果组装主要解决两类问题:

图片

文本换行  

如在上述完税证明示例中,税款所属税务机构这列内容中“国家税务总局”和“xx市税务局”因为换行的原因被切分为了两个文本块,我们可以依据他们有相同的分类标签(文本块分类结果)、紧邻的顺序(文本块序列化结果)、上下的位置关系,将其判定为同一个字段进行合并,得到最终的信息抽取结果:

field:税款所属税务机构;

value:国家税务总局xx市税务局。

数据关联

在完税证明的示例中,税务具体信息的多个字段是存在关联关系的,如果直接将这些字段的识别结果进行输出,会丢失其中的关系,难以在下游任务中使用。通过文本块序列化的输出结合位置信息,自动将有关联关系的字段进行组装,为下游任务提供字段之间的关系信息。上述例子经过数据关联后的最终输出为(JSON格式):

图片

效/果/评/估

为了验证上述文档信息抽取方案的效果,我们选择了“中文完税证明”和“英文发票”两个数据集进行测试。

数据集介绍

中文完税证明  

如第一节中样本所示,全国各个省市的完税证明版式存在较大差异,但待抽取的字段基本相同。我们从中文完税证明中抽取 15 个字段:发票号码、填发日期、税务机关、纳税人识别号、纳税人名称、税款所属时期、原凭证号、税种、品目名称、实缴(退)金额、大写金额、总金额、填票人、备注信息、入(退)库日期。我们共使用 12 个版式共 98 张完税证明进行模型训练,在 33 张样本上进行评测。

*以下为完税证明信息抽取输出的示例:

图片

英文发票   

如第一节中样本所示,我们从英文发票中抽取 15 个字段:发票号码、发行日期、买家姓名、买家地址、产品项目No.、产品明细、数量明细、产品单价、总额明细、税额合计、含税总额、付款方式、采购订单号、到期日、折扣合计。共使用 34 个版式共 294 张进行模型训练,在 90 张样本上进行评测。

*以下为英文发票信息抽取输出的示例:

图片

型整体效果

首先,我们针对上述两个数据集,分别测试模型的整体效果,即模型抽取的准确率、召回率和 F1 值。可以看到我们的方法在两个数据集上都能取得约 0.95 的 F1 值

图片

*F1 值:准确率及召回率的综合评价指标,越趋近于 1 则表明算法或模型越佳

模型在小样本下的效果

最后,我们用模型从未见过的文档来测试模型的泛化能力,并用极少量的该类文档重新训练模型,对比原模型和新模型的效果。我们在中文完税证明模型上进行上述实验,结果如下:

图片

可以发现,在遇到全新版式的数据时,原模型的效果并不理想, F1 值在 0.5 以下。此时,我们只需要补充 5 张数据重新训练模型就可以迅速改善模型在新版式上的效果,将 F1 值提升到 0.93 以上。这充分说明,模型有一定的泛化能力,只需原模型的基础上用极少量样本即可适应新的版式。

来也科技 IDP 平台提供强大的文档信息抽取能力,它通过使用视觉和语义信息进行建模,在处理类似发票、证件、发货单、完税证明等文档信息抽取任务时,只需极低的标注成本,就能达到非常好的效果。在遇到新数据格式带来的 badcase 时,通过少量的标注干预,即可有效的提升效果,让文档处理的自动化变得更加容易。对来也科技 IDP 平台以及文档信息抽取能力感兴趣的朋友,可点击“阅读原文”申请试用。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

关于RPA机器人流程自动化的简单介绍

关于RPA机器人流程自动化的简单介绍

你知道这是RPA机器人流程自动化,软件机器人,虚拟劳动者是个啥?RPA是Robotic Process Automation的英文缩写,是可以记录人在计算机上的操作,并重复运行的软件。中文翻译为机器人流程自动化亦可翻译成软件机器人、虚拟劳动者。因其可以将办

2022-11-21 11:15:13

人力资源数字化嘉年华来袭!RPA如何助力HR数字化转型

人力资源数字化嘉年华来袭!RPA如何助力HR数字化转型

8月5日至6日,智享会将带来首届云上人力资源数字化嘉年华,携手人力资源数字化领域的合作伙伴,帮您实现人力资源数字化转型,艺赛旗受邀参加,将为我们带来线上分享——“流程自动化工具RPA如何助力HR数字化转型”。

2022-11-21 16:01:21

艺赛旗RPA机器人数字化赋能疫情防控

艺赛旗RPA机器人数字化赋能疫情防控

艺赛旗RPA可以有效解决此类大批量上传数据及表格的需求。

2022-04-15 09:13:40

RPA金融行业解决方案|大型银行RPA应用场景分享

RPA金融行业解决方案|大型银行RPA应用场景分享

作为国内流程自动化佼佼者企业,艺赛旗通过RPA赋能,持续为客户创造价值,助力企业推进数字化转型。艺赛旗深耕企业流程自动化领域多年

2022-03-15 14:01:03

疫情之下,机器人流程自动化(RPA)的助力(一)

疫情之下,机器人流程自动化(RPA)的助力(一)

萨福克县是美国疫情最严重的地区之一:纽约萨福克县是一个利用自动化应对疫情的实例。 在技术服务提供商SVAM的帮助下,于2020年3月部署了UiPathRPA平台。 萨福克郡专员斯科特Mastellon IT部门表示,该系统包括许可多达三个机器人可用,全县

2022-11-22 15:28:39

中信银行信用卡中心 | 艺赛旗RPA机器人赋能流程管理自动化

中信银行信用卡中心 | 艺赛旗RPA机器人赋能流程管理自动化

中信信用卡于2019年引入RPA机器人流程自动化软件,现阶段,部分板块完成了生产环境部署及流程开发,大大提升了流程易用性及工作效率。当前运行流程共计有60项有余,包含多种业务场景,进一步推进信用卡中心的数字化转型,实现对业务需求的快速响应,提高流程机器人的复用率。未来还将根据业务发展需要持续增加业务场景。

2022-07-22 15:00:50

严选云产品

支付宝云支付 云支付是支付宝联合蚂蚁科技面向服务商推出的免开发、低成本、可靠的移动收单saas服务,可以支持多支付渠道、多支付场景,提供服务商商户管理及各种增值服务,同时依托支付宝强大的营销运营工具,建设出一套数字化智能收单平台,助力服务商快速优质拓展商户。
腾讯天御全栈式风控引擎RCE 全栈式风控引擎(RiskControlEngine,RCE)是基于人工智能技术和腾讯20年风控实战沉淀,依托腾讯海量业务构建的风控引擎,以轻量级的 SaaS 服务方式接入,帮助您快速解决注册、登录、营销活动等关键场景遇到的欺诈问题,实时防御黑灰产作恶。
小笨智能政务机器人 小笨智能政务机器人通过智能机器人云服务平台构建小笨机器人政务智能服务解决方案体系,面向政府职能部门、公共服务大厅等垂直业务单位提供深度的人工智能政务服务。 政务机器人以语音识别、语义解析、人脸识别、传感交互、SLAM建图导航、云服务等技术为支撑,通过智能语音交互系统,帮助市民轻松实现排队取号、信息查询、业务办理、自助缴费和政民互动等多种服务功能。 从而提升政府整体工作效率,改善市民的服务体验,全面开启“AI+政务服务”的服务管理新模式。产品广泛适用于税务、电力、海关、银行等政务行业。 政务机器人可充当迎宾员、宣传员、问询助手等多重角色。
CLOUDFIT智能多云管理平台 CLOUDFIT多云智能平台使客户能够实时监控、分析和管理云资产、成本、安全、性能效率、可靠性和卓越运营。CLOUDFIT显著降低客户18%-50%的云资源费用,通过更有效的资源利用率和更明确的购买建议消除闲置实例。
腾讯云CA证书金融行业解决方案 腾讯云CA作为第三方电子认证机构,对电子签名的签署者、签署时间、签署内容进行验证,并出具电子签名验证报告。该验证报告作为证据提供给司法机构,司法机构根据该报告认定电子签约文件的主体及事实。
金天鹅2号店长酒店数字化增长系统 金天鹅2号店长酒店数字化增长系统,OTA+TMC+TE流量扶持全渠道获客,一码通全场景让新客变老客。直联主流OTA渠道,直联各大TMC(商旅渠道),TE(同程旅行)流量扶持,库存,价格无缝同步,未来将连接更多平台。

甄选10000+数字化产品 为您免费使用

申请试用