icon百度OCR产品架构图 icon
icon百度OCR开放全系列70+项标准能力,业界首发2个自定义平台 icon

依托百度大脑领先的深度学习技术,提供多场景、多语种、高精度的文字检测与识别服务,让“ 计算机”和“ 人”一样看图识字;实现信息采集与处理的自动化,显著降低企业运营成本。

iconiOCR + EasyDL OCR 双平台,满足更广泛的结构化识别需求 icon
高效的OCR模板配置平台
仅需 1 张模板图片,5 分钟即可完成模板配置 支持训练多模板分类器,一步实现分类+结构化识别
一站式高精度OCR模型自训练平台
识别更高精:可自训练产出高精度的结构化识别模型,覆盖卡证、票据、表单、文档等效果可迭代:支持不断扩充训练集,持续提升模型识别效果覆盖更广泛:摆脱强版式依赖,产出更具泛化能力的模型
iconiOCR自定义模板文字识别 — 高效的OCR模板配置平台 icon

提供模板识别及图像分类器的自定义功能,并整合多种预置能力,高效、低成本地对固定版式的卡证、文件进行自动分类及全场景结构化识别,如境外身份证(英文)、学生证、准考证等 。

11
iconEasyDL OCR 自训练平台 — 跨模态大模型,泛化能力大幅增强 icon
简单单据场景
仅需少量数据即可实现90%以上准召率,随着数据量增多,效果指标可持续提升
复杂单据场景
具备强泛化能力,在未见过版式上可达到良好的效果指标
icon业界领先的大模型技术方案 icon
VIMER-MaskOCR
基于视觉和语义多模态预训练大模型
登顶文档视觉问答权威榜单——DocVQA
VIMER-StrucTexT
中英文大规模OCR结构化预训练大模型
登顶国际权威OCR结构化信息抽取榜单——SROIE
ERNIE-Layout
布局知识增强文档预训练大模型
中英文10个公开基准上SOTA
取得图表国际竞赛世界冠军
icon百度提供稳定可靠、灵活易用的私有化部署方式 icon
全栈自主可控
基于百度自主研发的深度学习框架飞桨PaddlePaddle,训练产出自主知识产权的高精度OCR模型 VIMER-StrucTexT 2.0、MaskOCR预训练大模型,显著提高文档理解全景应用任务效果
产品矩阵完善识别精度高
70+项细分识别能力、业内首发的自定义模板配置和模型训练平台,全面覆盖不同行业/场景的文字识别需求 最成熟的AI技术之一,通用文字识别及主流卡证票据识别准确率≥98%
国产化适配
支持在CPU或GPU环境及国产化系统中运行 适配主流国产化环境,其中CPU支持飞腾/海光/鲲鹏/兆芯,GPU支持昆仑芯/昇腾Atlas,操作系统支持银河麒麟V10 /统信UOS V20
部署简单快捷
OCR标准能力配套完善的技术文档(部署运维手册、接口调用文档/脚本等)。用户可自行操作,最快小时级完成安装部署 支持容器化一键部署至本地物理机、虚拟机和云服务器
icon百度OCR私有化部署服务器推荐配置 icon

icon百度OCR信创全生态链适配 icon

完全自主产权:全部OCR模型能力均基于百度飞桨框架训练产出,「硬件 - 框架 - 算法」全栈自主可控; 适配范围广:x86、ARM架构全适配,主流国产化生态及品牌全兼容,满足不同行业客户硬件选型要求。

icon百度OCR技术识别效果行业领先,并持续推进算法创新和突破 icon
iconOCR私有化典型应用场景,加速推进企业智能化升级 icon
法律政务
档案录入及管理
政务流程智能审批
交通监管
警务勘察/交通监管
高速收费/卡口检测
工业制造
企业文档录入及管理
仓储/原材料管理
能源电力
智能表单录入
管网安全巡检
金融保险
远程身份核验
保险理赔智能审批
企业服务
员工报销
员工入职/考勤
物流运输
物流单据智能录入
商品终端配送
广电传媒
内容安全
内容分析与管理
icon法律政务:自动识别各类卡证实现智慧服务 + 文档结构化及信息抽取 icon
应用场景
流程智能化审批:识别各类纸质卡片证照,加强信息化管理建设,提高政务审批速度,可应用在电子政务信息系统、政务办事大厅、政务审批系统等
档案管理:对法律卷宗、政府文件等各类纸质文档进行版面分析和内容提取,并结合NLP技术,用于案件分析、信息检索、档案库构建等
AI能力
OCR卡证识别:覆盖身份证、营业执照、户口本、护照、港澳台通行证、出生医学证明、银行卡等常用卡片证照,均支持全部关键字段结构化识别
iOCR自定义模板文字识别:仅需 1 张模板图片, 5 分钟即可定制结构化识别能力,多种卡证模板自动分类,一步实现自动分类及结构化识别
通用、表格识别:精准识别各类印刷\手写文件,并可返回文字位置信息、单元格信息,方便进行关键信息提取或二次开发
文档识别与还原:识别图片或PDF文件中的文本内容,并通过智能版式分析,转换为保留原文档版式的word或者excel文档。配套可视化操作界面,可批量导入、一键导出
icon案例解析:基于百度OCR搭建智慧政务系统 icon
01
接入iOCR私有化部署方案,在本地搭建电子证照识别录入系统;累计制作 800+ 种证照模板,直接拍照识别各类纸质证照,减少人工录入成本, 提升政务审批速度,『信息多跑路,群众少跑腿』
02
利用OCR通用文字识别赋能不动产自助终端设备,业务办理人员无需窗口排队等待,即可在自助终端上完成相关业务办理,有效缓解大厅客流压力,大幅提升接待能力、办证效率
icon交通出行:提升各类卡证票据的录入和比对效率规范交通监管,便利个人出行 icon
应用场景
警务勘察/交通监管:警务人员执法过程中采集车牌图片、驾驶证、身份证等信息后后上传到警务系统服务器,系统识别车牌和证照、获取车辆相关信息并回传至前端,快速实现车辆登记、交通违章的处理。
高速收费/卡口检测:高速摄像头采集到车牌照片后,通过后台识别,自动将车牌信息录入到监控管理系统,实现高速ECT收费、违章治理等的智能化应用。 单查
AI能力
交通场景文字识别: 识别能力丰富:包含车牌识别、驾驶证、行驶证、VIN码、车辆合格证、车辆登记证等交通场景常用证照,均支持全部关键字段结构化识别。 证件风险检测:驾驶证、行驶证识别可输出复印、翻拍、PS等告警信息,提示证件风险 部署方式多样:支持服务器端私有化部署、移动端离线SDK
交通场景图像识别: 准确识别图像中的车辆相关信息,包括车型识别、车辆检测、车流统计、车辆属性识别、车辆外观损伤识别等能力
icon金融服务:远程完成身份核验,提升业务办理效率 icon
业务场景
结构化识别个人/企业资质证照信息,实现信息的自动化录入和审查,降低用户输入成本,提升企业服务标准化和运营效率,广泛应用于远程开户、移动支付、线上投保等金融业务
OCR能力
全字段精准识别:结构化识别二代居民身份证正反面所有8个字段,支持各种角度,并针对各少数民族身份证专项优化,综合识别准确率超过99%
混贴识别:自动检测识别一张图片中的多张身份证正反面,同时支持图像裁剪、图像质量检测(模糊/不完整等) 证件风险检测:可识别临时身份证、复印件、翻拍、PS等类型,鉴别风险
icon案例解析:农行掌上银行APP icon

农行与百度成立联合实验室,构建农行感知、认知AI引擎,该平台搭载百度成熟稳定的OCR、人脸识别等AI技术,应用于农行线上身份识别等业务场景;如在掌上银行APP中,打造便捷、智能的业务体验,提升用户体验及业务效率。

icon保险医疗:识别提取各类医疗票据/单据字段信息,提升理赔业务效率 icon
业务场景
在企业面向客户的服务场景智能在线机器人能应答客户咨询例如账
AI能力
图像质量控制:图片方向矫正/清晰度判断:图像采集+质量控制一体化,快速判断单据图像质量,前端自动提示模糊图片重拍 卡证票据自动分类 自动分类:覆盖理赔场景下各类卡证/票据,包括身份证、银行卡、医疗发票、费用清单、结算单、出院小结、病案首页等 80+类常见卡证、票据
医疗票据/单据结构化识别:可识别全国所有省市,上万家医院的医疗票据/单据:门诊发票、住院发票、病案首页、结算单、费用清单、出院小结、门诊病历、入院记录、处方笺、诊断证明、手术记录等 数十类单据
icon案例解析:百度OCR助力泰康理赔智能化 icon
icon财税报销:提供纸质票据电子化的完整OCR解决方案,释放人力 icon
icon案例解析:百度内部财务系统依托OCR实现无纸化报销 icon
icon大工业:助力业务智能化升级,充分实现降本增效 icon
应用场景
工业制造:将OCR应用在供应商审查、生产物料管理、仓储物流管理、物流运输、报关报检等环节,可识别零部件编号、物流单据、报关单等,极大提升信息录入效率。
能源电力:安全巡检场景,利用OCR识别仪器仪表设备度数、故障信息或巡检单据内容,实现关键信息的高效提取,提升录入、比对的效率。
OCR能力
通用场景文字识别: 通用文字识别:针对整图的文字检测和识别,支持中文简体、中文繁体、英文、中英混合识别; 手写文字识别:手写中文、英文、数字及拼音识别 表格识别:支持有线、无线、单元格合并等表格的识别,同时支持印章的检测和识别
文档识别与还原: 支持将图片/PDF文档转换为Word或Excel文件,并确保完整还原原文件版式信息 支持对复杂版式文件的处理,如含表格、印章、手写等 配套可视化操作界面,支持一键导入和导出;同时支持API调用,返回JSON格式的解析结果
icon广电传媒:提取各类视频帧、网络图片中的文字信息识别过滤敏感或违规内容 icon
业务场景
内容安全:通过OCR提取各类网络图片、视频截图中的文字信息,用于识别敏感或违规内容,结合NLP,智能语音等技术,可用于内容审核等场景
内容分析与管理:通过OCR对视频、图片上的文字进行提取,再利用语音、NLP等AI技术对内容进行分析,输出结构化标签,实现智能化的内容分析,为内容检索、内容推荐的应用提供基础 单查
OCR能力
通用文字识别(高精度含位置版): 2w+大字库:可识别所有常用字和大部分生僻字
位置信息识别:返回文字行位置及单字位置信息,便于进行版式还原或关键信息提取 多语种文字识别:支持中、英、日、韩、法、俄、德等 20多种语言的文字识别
网络图片文字识别:支持识别艺术字体或背景复杂的文字内容,尤其适用于各类UGC图片/电商商品图/视频截图等
产品推荐 查看更多>>
    腾讯云智优保:AI智能核保解决方案

    腾讯云智优保:AI智能核保解决方案能够影像识别快速准确、数据资产沉淀、核保决策智能可解释、专业完整的领域知识、健康管理增值服务等功能,覆盖核保全流程的AI能力

    影像识别快速准确

    数据资产沉淀

    核保决策智能可解释

    健康管理增值服务

    百度智能云文字图像OCR识别

    百度智能云文字图像OCR识别,依托百度大脑领先的深度学习技术,提供多场景、多语种、高精度的文字检测与识别服务,让“ 计算机”和 “ 人”一样看图识字;实现信息采集与处理的自动化,显著降低企业运营成本。

    多场景

    多语种

    信息采集自动化

    文字检测

    华为云 图像识别 Image

    图像识别(Image Recognition),基于深度学习技术,可准确识别图像中的视觉内容,提供多种物体、场景和概念标签,具备目标检测和属性识别等能力,帮助客户准确识别和理解图像内容

    可识别多种物体、场景和概念标签,更准确进行图像识别、图像分析工作

    提供定制化的场景识别服务,使图像识别结果更加准确

    提供RESTful规范的API接口,以及服务SDK

    帮助客户减少人力成本,节省业务支出