浅谈光学字符识别（OCR）的发展简史-云巴巴

立即咨询

立即试用

商务合作

2022-11-21

当你在面对大量的PDF文档时，想要把他们转成文字，又不甘屈服于转文本所需的费用，而且，如果你的打字速度还很慢的话，就快来了解一下什么是OCR吧。

OCR的全称是光学字符识别，一般是指光学字符识别。是指电子设备，例如扫描仪或数码相机，检查纸上打印的字符。OCR通过进行检测暗、亮的模式可以确定其形状，然后用字符识别研究方法将形状翻译成计算机语言文字的过程；即，针对印刷体字符，OCR采用传统光学的方式将纸质文档中的文字转换发展成为中国黑白点阵的图像相关文件，并通过分析识别系统软件将图像中的文字转换成文本格式，供文字处理这些软件企业进一步提高编辑加工的技术。

OCR最重要的课题，是如何进行除错或利用计算机辅助信息技术提高企业识别方法正确率。ICR，即Intelligent Character Recognition，这个名词也因此而发展产生。一个好或坏的表现OCR系统的主要指标有：废品率，友好的错误率，识别速度快，用户界面，产品的稳定性，易用性和可行性。

OCR的发展简史

或许OCR这个词对于你来说，是一个新兴词汇。但其实，OCR的概念是在1929年由德国社会科学家Tausheck最先发展提出来的，后来由于美国通过科学家Handel也提出了可以利用信息技术对文字内容进行分析识别的想法。1966年就有公司发表了第一篇关于汉字识别的文章，采用了OCR的模板匹配法识别了1000个印刷体汉字。

早在20世纪60年代和70年代，世界上就开始有OCR研究，在研究的早期，大多数文本识别方法，识别的字数只有0到9。日本也有，例如文本框，1960年左右开始研究的基本理论OCR识别，最初的数字对象，我们开始有一些简单的产品，如印刷文字的邮政编码识别系统，直到1965年和1970年之间，拉链在邮件代码标识，信分，帮助邮局运营的区域;邮政编码迄今已被世界各国的地址写法主张。日本的学者开始研究汉字识别在20世纪70年代初，并做了大量的工作。

在70年代中国在OCR技术方面的研究工作才开始。对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，我国的汉字识别的研究进入一个实质性的阶段，相继推出了中文OCR产品，现为中国最领先汉字OCR技术。

下篇文章，小编会介绍一下关于OCR的软件结构。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

热门数字化产品

查看详情

腾讯云实时音视频TRTCTRTC 源自 QQ 音视频团队，是基于 QQ 20多年来的音视频技术积累，在腾讯云上部署售卖的 RTC 云服务。TRTC 支撑了腾讯会议、微信群直播、微信视频号直播、企业微信直播、腾讯课堂、全民K歌等业务是腾讯集团丰富的音视频场景的最佳实践输出。

查看详情

橙色云CRDE智橙协同设计研发平台橙色云CRDE智橙协同设计研发平台是SaaS云原生平台，整合云CAD、项目管理、BOM管理等多功能，支持多终端、跨地域协同工作。它以云PLM与云CAD一体化为核心，提供一站式产品创新解决方案，推动企业数字化转型，实现高效、低成本研发设计。

查看详情

腾讯云微搭低代码WeDa腾讯云微搭低代码是高效、高性能的低代码开发平台。腾讯云微搭低代码以云开发作为底层支撑，通过行业化模板、拖拽式组件和可视化配置快速构建多端应用（小程序、H5 、PC Web 应用等），免去了代码编写工作，让您能够完全专注于业务场景。

查看详情

北森盘点与发展系统北森盘点与发展系统，基于人才九宫格、人才名单结果，选拔高潜后备人才进入人才库，给予锻炼机会，加速成才。根据能力模型制定关键人才培养框架，根据盘点结果制定针对性的发展计划。评估角度多维度立体，适应企业现状，契合业务需要。

查看详情

上讯信息敏捷数据脱敏系统SDM敏捷数据管理平台软件（ADM）是上海上讯信息技术股份有限公司（以下简称“上讯信息”）自主研发的，主要面向金融、运营商、政府、能源、医疗等行业打造的全生命周期数据安全管理软件产品，用于数据备份、备份数据恢复验证、测试数据交付和静态数据脱敏等应用场景，可为企业上、中、下游数据的高效使用和安全管控提供一套整体解决方案。

为你推荐