几种典型光学字符识别（OCR）技术的网络结构（一）-云巴巴

立即咨询

立即试用

商务合作

首页

数字化社区

人工智能

几种典型光学字符识别（OCR）技术的网络结构（一）

2022-11-21

提到验证码大家都不陌生吧，而数字验证码相较于光学字符识别（OCR）技术并不难，只是 0-9 十个数字，加上轻微的旋转扭曲缩放即可。如果有粘连需要被分割的字符，它可以用来计算Viterbi算法的最大联合概率。

但是汉字跟验证码进行不同，汉字很复杂，并且企业数量存在很多。常用汉字就 3000 多，再加上通过旋转扭曲缩放，样本公司数量也是非常具有恐怖。怎样把一大坨汉字作为样本塞进应用包里面是一个煞费苦心的事情。现在就介绍几种典型光学字符识别（OCR）技术的网络结构。

通常的做法是使用CRNN模型。以CNN特征可以作为一个输入，双向LSTM进行数据序列分析处理技术使得文字识别的效率大幅提升，首先通过OCR技术的分类方法得到特征映射，也提升了模型的泛化能力。然后通过结果的CTC平移得到输出结果。

CRNN OCR的网络结构

另一种方法是以CNN特征可以作为一个输入，引入关注的机制。通过注意力进行模型对RNN的状态和上一状态的注意力权重分析计算发展出新一状态的注意力权重。特征和权重输入RNN，结果的CNN后由编码和解码获得。

端到端的OCR

与检测识别的多级OCR不同，将文本检测和识别统一到同一个工作流中，深度学习使端到端的OCR成为可能。一种目前已相对称FOTS（快速的面向text识别）关注端到端的框架。FOTS的检测工作任务和识别主要任务信息共享卷积特征图。其中，检测一方面卷积，另一方面它引入RoIRotate，一种操作者的用于提取指向文本区域。得到一个文本候选区域特征后，将其作为输入到RNN编码器和CTC解码器中进行风险识别。同时，OCR端到端网络培训是可能的，因为所有的运营商都是可微的。由于简化的工作流程中，网络可以在低运营成本进行验证，以实现实时的速度。

总结

尽管基于深度合作学习的光学字符识别（OCR）技术主要表现相较于传统教学方法可以更为出色，但是通过深度学习科学技术发展仍需要在光学字符识别（OCR）技术研究领域方面进行特化，而其中的关键正式传统光学字符识别（OCR）技术管理方法的精髓。

因此，我们仍然需要从传统方法的经验中学习，所以学习和深度的组合还提高OCR的性能。另一方面，作为一个深度合作的推动力，因此可以收集广泛而优质的数据分析也是我国现阶段光学字符识别（OCR）技术产品性能的重要举措之一，数据起到了发展至关重要的作用。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

热门数字化产品

查看详情

壹悟科技智能物流仿真系统Simulator壹悟科技智能物流仿真系统（Simulator）可以实现对仓储场景和工厂场景的业务流程仿真。支持用户导入项目现场运行地图，自定义移动机器人的参数和数量，以真实的物流业务调度系统（WCS）和机器人调度系统（RCS）为内核，驱动仿真运行，高度还原业务实际场景的作业流程和节拍。支持2D和3D实时运行显示，并提供完善的运行数据统计分析。

查看详情

优易WMS智能仓储管理系统优易WMS智能仓储管理系统系统是服务专业物流云仓客户的大型自动化智能仓库管理软件。支持B2C、B2B业务，深耕于鞋服、快消品行业，积累仓储行业多年实践经验。通过对出入库、库位精细化管理，实现对仓库的先入先出、效期等全方位管理，全面支持云仓客户的电商业务，满足电商客户的各种复杂仓库内场景作业需求。