人工智能之OCR识别技术简析

日期：2017-05-18

核心提示：文字识别是计算机视觉研究领域的分支之一，归属于模式识别和人工智能，是计算机科学的重要组成部分。计算机文字识别，俗称光学字符识别，英文全称是Optical Character Recognition(简称OCR)，它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

文字识别是计算机视觉研究领域的分支之一，归属于模式识别和人工智能，是计算机科学的重要组成部分。计算机文字识别，俗称光学字符识别，英文全称是Optical Character Recognition(简称OCR)，它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

OCR技术的兴起便是从印刷体识别开始的，印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分：图像预处理、版面处理、图像切分、特征提取和模型训练、识别后处理。

图像预处理

输入文本经过扫描仪进入计算机后，由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变，产生断笔、粘连和污点等干扰，所以在进行文字识别之前，要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前，所以被称为预处理。预处理一般包括灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等。

版面处理

版面处理分为三个主要部分，版面分析、版面理解、版面重构。

版面分析将文本图像分割为不同部分，并标定各部分属性，如：文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法，后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点，若包围其的所有像素点中存在相同像素值的像素点则视为两点连通，以此类推，这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来，用作进一步处理的依据。

图像切分

图像切分大致可以分为两个主要类别，行(列)切分和字切分。经过切分处理后，才能方便对单个文字进行识别处理。

特征提取与模型训练

特征提取与模型训练在深度学习广泛应用于图像识别领域之前，模板匹配是较为常见的一种识别方式，之后由于神经网络的复苏，基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件计算能力的提升，利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。

特征提取是从单个字符图像上提取统计特征或结构特征的过程。特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。

识别后处理

识别校正是在识别结果基础上根据语种的语言模型进行，当然在单文种识别中相对容易一些，而在多语种则较为复杂。

OCR的应用案例有哪些

印刷体识别应用扩展较多且技术发展较为成熟，无论在识别准确率方面还是在识别效率方面，都达到了较高的标准。

车牌识别

车牌识别系统是OCR工业化应用较早而且成功的典型案例，如今从停车场到小区门禁，车牌识别技术已走进生活的各个角落。

验证码识别

验证码的主要目的是强制人机交互来抵御机器自动化攻击的。验证码作为一种辅助安全手段在Web安全中有着特殊的地位，验证码安全和web应用中的众多漏洞相比似乎微不足道，但是千里之堤毁于蚁穴，有些时候如果能绕过验证码，则可以把手动变为自动，对于Web安全检测有很大的帮助。

标签： 人工智能 OCR识别技术人机交互机器自动化

12

更多>同类技术

全年征稿 / 资讯合作

2398080099

联系邮箱：

版权与免责声明

凡本网注明“来源：CK365测控网”的所有作品，均为北京新科时代传媒信息技术有限公司-CK365测控网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：CK365测控网”。违反上述声明者，本网将追究其相关法律责任。
本网转载并注明自其它来源的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

推荐图文

传感器的爆炸式增长下，隐私问题将重新定义	RFID技术在小区安防系统中的应用
基于RFID技术的核心物品实时监控管理系统	基于3G的RFID身份识别系统安全研究

推荐技术

可能喜欢

• 全国首个人工智能授课实验室落地华师附中	• 传感器在物联网应用之中的作用介绍
• 人工智能AI在机器人运动控制领域应用盘点	• 动态频谱管理技术：从认知无线电到人工智能
• 如何实现基于人工智能的机器人检测服务	• Synopsys推出完整的DesignWare® HBM2 IP解决方案
• 关于人工智能的优缺点你要知道的10个事实	• AI进步的同时安全问题不容忽视
• 盘点智能家居应用中的六大“刚需”产品	• 信任与责任齐涨人工智能只有做到5点才能真正发挥作用