犀语科技智能文档解析平台_OCR自定义模板文字识别SDK

犀语科技智能文档解析平台

犀语科技智能文档解析平台，以数据价值为基础，人工智能分析为引领，搭建企业全局数据平台和智能分析系统，为企业运营管理的所有环节提供分析洞察，并从分析运营结果向预测未来发展转化。妨碍企业整合数据分析平台建设的因素包括技术和部门墙带来的数据隔离，后者是目前更主要的障碍。

立即咨询

企业数字化转型中面临的痛点 icon

根据企业的数字化成熟度不同，可以将企业数字化转型所处的阶段分为在线化、集成化、数字化、智能化四个阶段。目前中国大部分传统企业处于在线化和集成化阶段，少数企业进入数字化阶段。智能化的局部应用已经出现，大规模成体系地应用在传统企业的情况尚不多见。

竞争严重
同行竞争严重，企业年均复合增长率已经呈现出下降的趋势，互联网金融公司的发展，给市场带来强烈的影响和竞争。

规则严格
金融行业领域监管越来越严格导致相相关文档的的数量件越来越多。人工处理文本的能力，没有提升，导致工作上的疏忽，给工作带来潜在的风险。

成本增加
人工处理后，需要人工审核，费时费力易出错。劳动力成本逐年上升，新时代员工不愿意天天进行重复性工作。

能力滞后
传统技术手段不够灵活，难以适业务变化，高度依赖人工介入干预。基于人工智能等技术强化企业的数字化能力并要考量以前的非结构化数据资产能不能发挥应有的价值。

企业信息化建设只关注信息系统对业务的支持和提高工作效率，缺乏数据标准规划和数据资源挖掘规划，数据资产管理未提上日程。

数据扫描、分类、录入、编制目录、信息整理过程中需要大量人力投入，人工作业耗时费力、操作质量参差不齐，经常返工导致管理成本高昂。

缺乏统一的行业数据标准，导致不同系统之间的功能对接不够、数据共享不畅，未形成较好的行业数据分析应用基础，数据资源开发利用缓慢。

产品概述

以数据价值为基础，人工智能分析为引领，搭建企业全局数据平台和智能分析系统，为企业运营管理的所有环节提供分析洞察，并从分析运营结果向预测未来发展转化。妨碍企业整合数据分析平台建设的因素包括技术和部门墙带来的数据隔离，后者是目前更主要的障碍。AI 应用场景与开发环境、常用 AI 数据模型，以及数据库整合在一起，形成企业 AI中台，将各种AI能力汇聚在一起，对不同业务提供 AI 能力，并形成具备AI服务能力的中台。数字化时代企业需要具备敏捷的反应能力，对外应把握客户和市场的迅速变化，对内满足企业管理要求。敏捷能力的建设需要业务模式、 IT 架构、产品开发方式同时实现敏捷，从而孕育低代码平台的产生。

精准识别
针对图片模糊、倾斜、翻转等情况进行专项优化，鲁棒性强，多指标优于行业水平，中英文和符号的字符识别率高。

通用性强
算法通用性强，能够适用于不同行业不同场景的不同数据的识别，毫秒级别相应，提供高可用，高稳定的产品服务。

产品功能丰富
OCR能力除全文识别外，还为文档识别提供印章、标题提取、分段、分行、表格划线等分析能力。

AI能力
除本身几十类预置算法外，面向终端业务使用者提供低成本高可用的自定义识别能力。

产品矩阵

文字识别能力

文字识别+图像识别技术将各位常见文档图片或文档扫描件中的信息按照文档原有的格式进行文本识别和还原

票证识别能力支持40+票证结构化识别 icon

模板识别自学习

1个样本制作模板，即可实现对相同版式样本的结构化识别

强大的可视化标注器
支持位置关系、相对位置关系进行标注、配置多种字段特征、满足各种复杂场景标注需求

基于拓扑关系的结构化提取
空间位置关系特征结合语义结构信息结构，进行关键元素定位、循环识别；满足复杂场景结构化需求

实时交互查看模板效果
可实时查看识别结果，用户可通过调整模板、配置字段特征和词典等提升模板识别准确率

OCR训练平台

一站式OCR识别训练平台，少量样本即可训练高可用模型，结构化输出关键字段内容，极大提升OCR模型训练效率

低成本，少量人工标注
可视化标注，提供可视化数据管理平台。智能预标注，系统智能预标注，仅需人工核对修正数据。数据生成，批量生成虚拟数据，快速扩充训练集。

提取高精度，准确率高
高精算法， AI技术自动获得最优模型和最优参数。融合视觉、语义多模态特征进行训练，丰富的商用模型实训经验，预置最佳实践预训练模型。

零门槛，一站式操作
无需关注算法细节，预置最佳训练参数。数据标注-模型训练-模型发布全流程。提供一站式流程化训练，结构化过程管理。

智能信贷报告审阅方案 icon

应用场景与方案亮点

应用场景：银行及其他金融机构花费大量人力收集不同信用主体的贷前贷后报告，阅读大量文章，逐段逐句地识别关键风险信息。业务人员难以高效审阅，同时难以从风险角度识别问题。方案亮点：充分利用自然语言处理技术，实现对信贷文档批量自动化文本分类，对文本信息进行自动化摘要处理，提取关键风险信息，同时实现可视化展示风险信息。

应用部门与业务收益

应用部门：银行信贷审批部、风险合规部等。业务收益：大幅提高公司信用评审人员的效率，将评审文本的评审量压缩到原来的20%左右; 提供了明确的风险矩阵，使得风险评估人员可以基于风险矩阵中重要的风险点，了解到风险分布情况，提高了风险定位的准确性。

关键信息摘取（NLP） icon

关键信息摘取

关键信息抽取服务主要实现从大量的非结构化文档中提取关键信息，极大的节约人力成本。

通过语义理解，抽取文本的位置信息、触发词信息、词性信息等多维统计学信息，构建语义判别模型，识别风险句，高亮风险词等。

通用文本识别（OCR） icon

准确率

可编辑版PDF识别准确率达99%+，扫描版PDF识别准确率达95%+。可以支持PDF/图片/word/xls等多种格式，模糊图片识别准确率90%+，同时支持针对旋转图片、无表格线表格解析。

智能抽取（OCR+NLP） icon

准确率

针对制式文档，及抽取规则固定可达到100%抽取效果。涉及语义理解，准确率88%+。

需求

规则抽取：需要业务方输入抽取规则，及业务方真实使用数据作为模型验证与调优。NLP抽取：需要业务方输入真实业务样本来训练模型，在真实场景测试模型；

知识库搭建

系统功能架构

犀易工场功能架构 – CV+NLP 方向 icon

应用关系示意

生产环境数据修正反哺AI工厂模型训练示意 icon

犀易工场对非结构化数据在不同阶段的管理支持 icon

结合非结构化数据提取的一般特征，我们在数据集管理中设计了若干标签，其中一类是按照模型开发生命周期，划分为：原始数据，预处理数据，标注数据，生产修复数据，最终优质的标注数据会合并线下多批次标注数据和生产反馈清晰后的数据，形成优质非结构化数据集。

标注数据

即使用各种标注工具，经过团队协作，形成的标注映射数据包，根据项目迭代，标注数据会根据批次迭代，也会根据业务变更迭代。

生产修正数据

这种数据往往价值较高，本身属于一类标注数据，但是这类数据往往也需要清洗，或作一定的变形，因此单独进行维护。

原始数据

通过多种渠道收集的各类文档，图像等。

预处理数据

即使用AI文档解析服务，线下多工序处理，定制化开发后得到的包含多种特征的数据包，一般包括文本信息和结构信息。

新场景配置和犀易工场对接示意 icon

服务中心是犀易工场的面向应用提供AI服务的管理中心，提供了镜像管理、服务管理、应用管理等基本功能。服务中心可以和训练中心耦合部署，支持在开发环境进行服务赋能，服务中心也可以和智能应用耦合部署，支持在生产环境进行服务赋能。

业务数据和模型训练在模型精度和保密控制间如何平衡 icon

AI建模宏观认识

AI领域的建模是有很大部分的探索和试验性质的，因此数据探索，建模验证，失败，迭代，是常态。让数据科学家尽早看到真实数据，了解其形态，关系，数据的载体，样式，都能显著提升建模效率，规避模型试验或选型风险。

结构化数据建模影响因素

结构化数据是企业当前最宝贵的数据资产，数据科学家针对特定领域建模时（挖掘，推荐），一般不能直接获得生产数据，但也会获得脱敏后的近似数据。上述数据能否通过必要但相对简单的流程从大数据系统，数据湖系统中脱产传输到智能中台的模型开发隔离区域，对研发效率有很大影响。如果涉及其他业务子系统，这个过程同样影响效率。同时生产环境下的模型调度，数据反馈，数据验证，模型调优，模型迭代，可以按照重要性等因素，考虑数据是否流回智能中台，或按照最小AI能力底座的方式深度耦合到业务系统中。中台只负责开发部分，严格限制生产数据流入。

非结构化数据建模影响因素

针对非结构化数据，情况往往更复杂，表现在两个方面：一个是信息载体样式，模板，形态，数据质量，分类占比等，对数据预处理的工作量及技术选型范围有致命影响。另一方面是，业务方往往对自己的数据现状也不了解，对所需技术处理手段带来的成本，工期影响难以预料。以及除了中台能力工具的必要辅助，业务参与工具的使用，业务参与数据业务重要性的识别，都对非结构化数据处理的优先级有重要的影响。非结构数据往往很难脱敏，一般依赖IT进行传输控制，防止数据泄露。

单场景多套提取字段配置示意 icon

在文档解系平台的赋能实践中，我们发现，由于数据特征的差异和业务诉求的差异，往往针对一个场景的文档会涉及多套提取诉求，但针对每类提取模型的训练是需要时间的。因此从快速，分步骤赋能业务的思路来看，需要在文档解析完成后，优先给业务提供灵活的输出结构配置，供业务选择输出模板，人工划选提取。当然针对通用的字段，NLP模型可以统一辅助提取，而随着数据的不断积累，小类中特征明确的子类，可以拆分衍生为新的场景，通过专项NLP模型训练，完成场景闭环，实现端到端提取能力。