icon文字识别遍布在身边的各个角落icon

在我们在学习工作和生活中,肯定多多少少遇到过这样的场景。在某本书或者某张报纸上看到一大段有用的文字,想要快速摘录出来。查找到的重要信息存储格式为图像或者文字不可复制的PDF,需要手动输入成文本格式。经常需要输入身份证号码或者银行卡号码之类的长串数字,需要仔细录入反复核对。有大批量的表格、单据、合同等纸质材料需要转化为电子文档保存。报销发票时候需要一张张录入票据手动计算金额......

icon文字使用的场景和方式复杂多变icon
识别文档类型多样
证件、报告、印章、表格、票据、 印刷文件、手写文件...
文本质量差
喷墨式打印机字迹模糊不清
字体颜色浅
人工录入效率低
文件量大导致业务流办理
同种文档格式不一
发票:增值税发票、增值税发票(卷票)、定额发票、出租车发票、购车发票、火车票、机票行程单、财务票据混贴...
文件量大,出错率高
机械性劳动
信息错误
信息丢失
人工归档困难
归档名目繁多,很多线下资料需
要人工审阅后归档
iconOCR是实现文字识别的最佳实现方式icon

光学字符识别,即Optical Character Recognition,简称 OCR,是专门解决文字识别问题的人工智能技术;采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,它让计算机像人一样看图识字,不管是扫面件、图片还是纸质文件都可以轻松搞定。

iconOCR识别面临着各种挑战icon
扫描表格识别困难
扫描的单据往往存在虚线干扰、版面缺失、倾斜、暗光、扭曲、噪声、折痕等情况,定位难度大。
文字千变万化
例如字体、字号、颜色、笔画宽度等不固定,方向任意;小数点、近似英文数字、特殊符号、连接词、艺术字等,容易被漏检或误识别。
医疗票据情况复杂
各地版式各异,针式打印的图像分辨率较低外加受印章、底纹、串行、畸变等干扰因素的影响,这给算法模型增加了识别难度。
表格单据情形复杂
表格单据经常存在盖章(印章覆盖文字)、错行(文字溢出表格单元,与表格线交叉)、跨页、无框表格等的情况造成文字识别干扰,极大影响识别准确率。
照片干扰因素多
拍照上传的图片存在噪声、模糊、光线变化、形变、复杂背景干扰等问题,对文字定位和识别的准确度是巨大挑战。
手写体千人千面
手写体存在不规则、潦草等情况,文字特征不易获取。
icon达观渊识OCR功能概览icon
icon功能1:文档结构化智能抽取icon

任何你能想到的形式都可以轻松识别,目前已支持242种类型的证件、表单、文件的识别和结构化抽取。

icon功能2:文档分类和归档能力icon
智能文档分类
平台可以根据已经创建的文档类型实现文档的智能自动分类。
自定义文件层级结构
为需要归档的文件创建层级结构,系统可根据输出的不同类别的文档自动建立层级关系,并支持按照文件内容和文件类型进行检索,快速找到想要的文件。
支持层级文件的下载和文件重命名
可将系统创建好的文件层级下载到本地,并支持按照一定的规则为识别出的文件重命名,在本地也可实现对文件的快速检索。
icon功能3:文件类型拓展能力icon
自定义文档类型
只需上传一张标注图片,即可在几分钟内自助完成识别模型制作,建立图片中文字的Key-Value对应关系,实现对相同版式图片的结构化识别。
自定义字段类型和模型规则
针对输出值为有限集的字段,用户可上传字段词典限制该字段的输出值,系统会进行输出值的智能纠正匹配,提高识别准确率。
icon功能4:健全的模型训练能力icon

只需一份标注文件,标注完成后系统自动训练模型,简单快捷

icon功能5:机器预标注能力icon

基于已经标注类似模板,渊识OCR具有强大的自标注能力,在人工未标注之前完成机器标注,人工只需复核即可。

icon达观渊识OCR技术框架icon

接入层:包括协议转换、参数输配和结果适配等。框架层:图像识别服务运行的系统框架,加载运行算法,提供稳定的识别服务,包括:Master:接收接入层的请求,进行请求拆分、请求调度、结果合并等。Worker:实际执行算法的进程载体,主要包含算法SO/模型的加载、更新,进行算法的执行。Zookeeper:存储worker心跳信息、算法映射关系、算法执行计划、算法静态/动态快照信息等。ConfigServer:监听worker心跳并实时更新动态动态路由表,触发master更新路由规则及连接池。算法层:算法人员提供各种算法模型及算法so。周边系统:评测系统:提供版本评测功能,存储系统:非敏感图片及badcase存储。监控告警:监控服务的运行状态,在异常时进行告警。日志系统:请求日志的存储,为问题的跟踪排查提供依据框架运行时。

iconOCR行业应用场景图谱icon

OCR为AI添上一双“慧眼”,已经在各行各业中得到广泛的应用。

icon场景1 企业财务报销icon
现状

公司员工报销时,财务人员需要将的大量的发票信息手动录入系统,机械性的工作耗时耗力,工作效率低。

特点

识别增值税发票关键字段信息,结构化输出结果,支持图像翻转、文字错行、盖章干扰等复杂场景。

优势

提取字段齐全:结构化提取发票号码、日期等基础信息和货物详细列表等多项关键字段;识别精度高:支持图片翻转、错行、盖章干扰等复杂场景,数字、符号等文本识别精度高。

icon场景2 保险-智能理赔icon

谋国内知名保险公司在使用达观渊识平台后,工作效率提升了60%~80%

需求痛点

人工作业难免出现纰漏,信息录入有误影响理算准确性,容易造成理赔渗漏。项目繁多,目繁杂,大量人力从事高度重复的事务性工作,耗时费力,效率低下。

技术难点

医疗票据在全国范围内没有相对统一的制版格式,各地版式各异,这给算法模型增加了识别难度。医疗票据多采用针式打印,图像分辨率较低,外加受印章、底纹、串行、畸变等干扰因素的影响,增加了识别、提取难度。

优势特点

多类型识别,单据智能分类,全字段\自定义关键字段提取,结构化输出,纠错预警提示,机器+人工辅助纠正识别文字,覆盖全国不同地区医疗发票。

icon场景3 银行信贷业务-财报识别icon
现状
在银行对公业务中,信贷员亟需对授信企业进行信息采集和验证,而财务报表的数据分析基本上还是基于人工阅读审核的方式,效率低,无法实现审批自动化。银行的信审部分,传统的人工审核方式已经严重阻碍了银行信审的效率和业务开展。
价值
替代了繁重的人工录入工作,提高了信贷审核人员的工作效率,大大缩短了业务办理时间,效率提高了70%;甚至可以帮助银行等部门构建自动化的财务审核业务系统,缩减人力成本、控制数据风险、提高办公效率、扩大业务经营、提升客户满意度。
速度快
识别一页报表平均耗时2秒
数据详细
全字段识别和提取,可获得企业所有详细数据
精度高
准确率高达99.99%, 不受环境、作业疲劳的影响
无需模板
不需要用户设定识别模板,不论其报告长度,我们通过自动分析以及规则匹配达到准确识别的目的
格式原版式还原
高度还原出逻辑结构和财务报表一样的表格
icon场景4 政府行政审批icon
现状
在政府审批流程过程中,线下审批文件作为行政事务的支撑材料,在信息录入、信息审核和资料流转的需要占用大量的人力资源和公共资源,从而造成审批流程缓慢,文件易丢失等问题。
价值
审批流转线上化、信息化将有助于行政流程简化,让政府行政服务变得更加高效、便民。
优势特点
所以文件一次zip打包上传
单据智能分类识别
结构化输出
信息之间交叉验证
纠错预警提示
手写体识别准确率高
icon达观达观源识OCR平台打造独树一帜的AI慧眼icon

跟进计算机视觉、图像处理、自然语言处理、深度学习、迁移学习、强化学习等领域最前沿的算法,并致力于将其工程化应用到OCR系统上。独有的计算机视觉和自然语言处理深度融合技术,独有的多算法融合技术。

icon技术优势1:独有的计算机视觉和自然语言处理深度融合技术icon
图像矫正
图像矫正算法和模型的目标是把存在旋转、倾斜、透视、褶皱等的图片还原为平整端正的图片,便于后续模型的发挥,从而提升识别的效果。
文字检测
文字检测模型的目标就是从图片中尽可能准确地找出文字所在区域、
文字识别
文字识别模型的目标是将检测出来的文字图片尽可能准确的识别出具体的字,从而转化为计算机可理解的字符序列。
语义修正
语义修正模型是利用最前沿的自然语言处理技术,对输出结果进行语义层级的修正,是的OCR识别的准确率进一步提升。
icon技术优势2:基于视觉注意力的深度学习文字识别技术icon

采用视觉注意力模型技术对图像进行特征提取,然后进行序列特征提取,最后使用注意力模型作为解码器输出最终的文字序列

icon技术优势3:先进的文字定位技术icon

基于深度学习和全卷积网络的关键点定位技术,采用倾斜矫正算法、最大轮廓提取算法、表格线去干扰算法和文字框定位算法等多种技术手段相互融台,进一步提高文字识别的精度。

icon技术优势4:独有的机器学习模型融合算法icon
• 特征提取子模块:基于信息增益、PCA方法、TFIDF、词性、位置、句法结构、专业词库等。
• 序列标注子模块:HMM隐马尔可夫模型、CRF条件随机场、RNN循环神经网络。
• 文本分类子模块:Rocchio分类器、支持向量机(SVM)、神经网络、随机森林、xgboost方法。
• 深度学习子模块:Bi-LSTM+CRF抽取、CNN分类、注意力机制、迁移学习解决小数据量问题、使用预训练的ELMo和 BERT提升系统泛化效果。
• 模型融合子模块:使用多个基础分类器的结果、主题模型的产出、以及深度模型提取到的特征作为输入,利用不同分类器的优势,取长补短,综合多个分类器的结果。
icon技术优势5:快速集成部署 高速稳定运行icon
• 微服务架构:将应用和服务分解成更小的、松散耦合的组件,便于升级和扩展。
• Swarm+Docker容器化部署:在流水线中保持一致的容器镜像,防止开发、测试和部署之间因为环境不一致而导致未知问题出现,使平台具备云原生和易移植的特征。
• 分布式架构设计:根据数据量和服务访问的增加,灵活进行系统扩展,并利用负载均衡技术,通过多个索引热备份同时提供服务,支持百亿级内容的吞吐。
产品推荐 查看更多>>
    腾讯云智能结构化文字识别

    腾讯云智能结构化文字识别,适应任意版式,提高数据可用性,根据客户传参,智能调整结构化文本内容。一个产品满足附加需求,增加客户粘性,为客户的非标准产品需求形成轻量级OCR解决方案,低成本、低门槛、短周期的方式快速接入。

    适应任意版式,提高数据可用性

    根据客户传参,智能调整结构化文本内容

    一个产品满足附加需求,增加客户粘性

    低成本、低门槛、短周期的方式快速接入

    腾讯云行业文档识别OCR

    保险、教育、金融、医疗等各类行业文档和表单表格的高精度识别服务

    提供多种行业文档识别服务

    支持将图片上的文字内容,智能识别为结构化的文本

    可应用于多种行业场景,大幅提升信息处理效率

    腾讯云票据识别OCR

    腾讯云票据识别OCR使用深度学习方法,智能检测发票位置、区分类型、提取关键信息,实现支持不同尺寸、版式、角度的多页混贴发票识别。在复杂场景(模糊昏暗、畸变旋转、印章干扰、打印错位等)下鲁棒性强,支持23+细分票种,字段精度可达98%,400+字段通过sdk固定,可快速轻量开发接入。

    混贴多页秒级返回

    支持全票种识别

    支持多方信息校验

    算法技术优势