技术中心
 
 

人工智能之OCR识别技术简析

   日期:2017-05-18    
核心提示:文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分:图像预处理、版面处理、图像切分、特征提取和模型训练、识别后处理。

图像预处理

输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

版面处理

版面处理分为三个主要部分,版面分析、版面理解、版面重构。

版面分析将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。

图像切分

图像切分大致可以分为两个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。

特征提取与模型训练

特征提取与模型训练在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件计算能力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。

特征提取是从单个字符图像上提取统计特征或结构特征的过程。特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。

识别后处理

识别校正是在识别结果基础上根据语种的语言模型进行,当然在单文种识别中相对容易一些,而在多语种则较为复杂。

OCR的应用案例有哪些

印刷体识别应用扩展较多且技术发展较为成熟,无论在识别准确率方面还是在识别效率方面,都达到了较高的标准。

车牌识别

车牌识别系统是OCR工业化应用较早而且成功的典型案例,如今从停车场到小区门禁,车牌识别技术已走进生活的各个角落。

验证码识别

验证码的主要目的是强制人机交互来抵御机器自动化攻击的。验证码作为一种辅助安全手段在Web安全中有着特殊的地位,验证码安全和web应用中的众多漏洞相比似乎微不足道,但是千里之堤毁于蚁穴,有些时候如果能绕过验证码,则可以把手动变为自动,对于Web安全检测有很大的帮助。

 
  
  
  
  
 
更多>同类技术
 
全年征稿 / 资讯合作
 
推荐图文
推荐技术
可能喜欢