AI/计算软件系列-OCR技术综述

上午我导给了我一张图片,是一堆专利号和名字的截图,让我下载那些专利。一个个数字手动输入太麻烦,果断提取文字保存文字订正后逐一下载。从图片中提取文字,这是我们日常工作中常用的一个操作,方便快捷但准确度有高有低,那这个功能是如何实现的呢,得益于一项关键技术——OCR。OCR技术是如何实现这个功能的呢?识别准确度不同又是因为什么呢?今天小莫带大家一起了解一下这背后的逻辑~~

01

简介

OCR(Optical Character Recognition)即光学字符识别。指针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。它能够将图片中的文字、数字信息迅速转换为文本信息。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等

02

发展简史

OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。中国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年,我国提出“863”高新科技研究计划,汉字识别的研究进入一个实质性的阶段,清华大学的丁晓青教授和中科院分别开发研究,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。

03

分类

可将OCR分为手写体识别和印刷体识别两类。

印刷体识别较手写体识别要简单得多,因为印刷体大多都是规则的字体,这些字体都是计算机自己生成再通过打印技术印刷到纸上。但在印刷体的识别上有其独特的干扰:在印刷过程中字体很可能变得断裂或者墨水粘连,使得OCR识别困难,但这些都可以通过一些图像处理的技术尽可能的还原,进而提高识别率。总的来说,单纯的印刷体识别在业界已经能做到很不错了。

手写体识别一直是OCR界一直想攻克的难关,但时至今日,这个难关还没攻破,还有很多学者和公司在研究。手写体识别困难是因为人类手写的字往往带有个人特色,每个人写字的风格基本不一样,虽然人类可以读懂你写的文字,但是机器很难。印刷体一般都比较规则,字体都基本就那几十种,机器学习这几十种字体并不是一件难事,但是手写体,每个人的字体都不大相同,这就是难度所在。

04

识别方法

现在想对字符进行识别,有以下方法:

传统算法

深度学习方法

在2013年之前,传统算法在OCR领域占主导地位,其标准流程包含文本检测、单字符分割、单字符识别、后处理等步骤。例如PhotoOCR算法。PhotoOCR是谷歌公司提出的一套完整OCR识别系统,包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域的组合、基于HOG特征和全连接神经网络的单字符分类、基于ngram方法的识别结果校正。该系统覆盖传统OCR流程每一环节,通过流程细化与每一环节的多类技术集成化,在2013年取得了优异结果,同样也暴露传统方法诸多不足,例如:需要将OCR系统割裂成过多环节、需要在每个环节上引入过多人工干预、需要根据场景设定方法集成、难以做到端到端训练,等等。

自2012年AlexNet在ImageNet竞赛夺冠以来,深度学习方法开始在图像视频领域大幅超越传统算法,并开始扩展到OCR领域,包括基于卷积神经网络和基于长短期记忆的方法等。现在OCR多用卷积神经网络来做,且识别率很好,不再需要花大量时间去设计字符特征。在OCR系统中,人工神经网络主要充当特征提取器和分类器的功能,输入是字符图像,输出是识别结果。CNN方法的出现,最大功能是在特征工程及单字符分类领域替代传统方法,但仍然未能避免传统思路中难度最大的二值化和字符分割问题。在复杂的自然场景、广告场景中,CNN分类方法仍难以满足需要。

05

应用实例

现在市面上有许多OCR识别软件,包括OCR文字识别软件(e.g.百度智能云;腾讯云「OCR」文字识别等);OCR表格识别软件(e.g.百度智能云等);基于OCR技术的化学结构识别软件(e.g.StoneMIND | Collector等)。目前基于OCR技术的软件应用广泛,各个领域都有涉及,大家可按需寻找~~

参考资料:

1.光学字符识别_百度百科

2.OCR技术综述:https://cloud.tencent.com/developer/article/1101042

3.OCR识别之技术篇 :https://www.sohu.com/a/303689870_100189372

4.望石智慧官网:https://www.stonewise.cn/mol_product

版 权 信 息

来源:AIDDPro

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月7日
下一篇 2022年1月7日

相关推荐