更新时间:2023-08-16 09:59
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的文本的计算机输入技术。可应用于银行票据、大量文字资料等、档案卷宗、文案的录入和处理领域。
OCR通过扫描和摄像等光学输入方式获取图像上的文字信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准码,并按通用格式存储在文本文件中。所以OCR是一种非常快捷、省力的文字输入方式,也是在文字数据量大的今天被人们广泛采用的输入方法。
OCR技术并非一项新的技术,远在计算机之前就有了。早在1929年,德国的科学家Tausheck首先提出了OCR的概念。几年后,美国科学家Handel也提出了利用光学技术对文字进行识别的想法。在20世纪60、70年代,世界各国就开始有OGR的研究,在研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0—9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965—1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,用来识别邮件上的邮政编码,帮助邮局做区域分信的作业。也因此至今邮政编码一直是各国所倡导的地址书写方式。
一个OCR系统可分为3个部分。
首先把待识别的文本通过扫描设备输入系统,由硬件、软件完成数字图像处理,把待识别文本中的照片、图形与文字分离开来,并将分离出的文字分割成单个符号图形供识别部分使用。
把分隔出的文字图形规格化,提取文字的几何特征和统计特性,并把特征送入识别器,得到待识别文字的内码作为结果。
综合考虑识别结果以及预处理部分的某些因素,生成具有一定格式的识别结果,然后对整个识别结果进行语言学方面的检查,纠正误识成分,从而产生OCR系统对该识别文本的最终结果。
印刷体OCR的识别技术已经达到较高水平。OCR产品已由早期的只能识别指定的印刷体数字、英文字母和部分符号,发展成为可以自动进行版面分析、表格识别,实现混合文字、多字体、多字号、横竖混排识别的强大的计算机信息快速录入工具。对印刷体汉字的识别率达到98%以上,即使对印刷质量较差的文字,其识别率也达到95%以上,对手写体汉字的识别率也达到70%以上。
基于传统OCR技术的扫描仪因其功能单一、应用及携带不方便等诸多弊病,已成为OCR技术广泛普及应用的主要障碍之一。与此同时,数码相机、摄像机、PDA、拍照手机正在迅速普及,利用这些设备拍摄的自然视觉图像与扫描仪输出的图像不同,它往往会有焦距变化、角度形变、光线变化、背景变化等多种复杂情况出现,因此需要借助超越传统扫描仪的OCR新技术来实现对这些图像的识别。OCR技术已经迎来了新的应用高潮,例如,可以直接把OCR移植到数字移动产品上,当用户利用数码相机、数码摄像机或手机等设备把文章或资料拍下来之后,就可以把这些数字图像资料传入计算机,然后再通过OCR识别软件,变成可供编辑、使用、保存的文本资料。OCR技术与数字移动产品相结合,使OCR的应用领域更加丰富、普及。