AI/计算软件系列-OCR技术综述

上午我导给了我一张图片，是一堆专利号和名字的截图，让我下载那些专利。一个个数字手动输入太麻烦，果断提取文字保存文字订正后逐一下载。从图片中提取文字，这是我们日常工作中常用的一个操作，方便快捷但准确度有高有低，那这个功能是如何实现的呢，得益于一项关键技术——OCR。OCR技术是如何实现这个功能的呢？识别准确度不同又是因为什么呢？今天小莫带大家一起了解一下这背后的逻辑~~

简介

OCR（Optical Character Recognition）即光学字符识别。指针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。它能够将图片中的文字、数字信息迅速转换为文本信息。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

发展简史

OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性的阶段，清华大学的丁晓青教授和中科院分别开发研究，相继推出了中文OCR产品，现为中国最领先汉字OCR技术。早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求。

分类

可将OCR分为手写体识别和印刷体识别两类。

印刷体识别较手写体识别要简单得多，因为印刷体大多都是规则的字体，这些字体都是计算机自己生成再通过打印技术印刷到纸上。但在印刷体的识别上有其独特的干扰：在印刷过程中字体很可能变得断裂或者墨水粘连，使得OCR识别困难，但这些都可以通过一些图像处理的技术尽可能的还原，进而提高识别率。总的来说，单纯的印刷体识别在业界已经能做到很不错了。

手写体识别一直是OCR界一直想攻克的难关，但时至今日，这个难关还没攻破，还有很多学者和公司在研究。手写体识别困难是因为人类手写的字往往带有个人特色，每个人写字的风格基本不一样，虽然人类可以读懂你写的文字，但是机器很难。印刷体一般都比较规则，字体都基本就那几十种，机器学习这几十种字体并不是一件难事，但是手写体，每个人的字体都不大相同，这就是难度所在。

识别方法

现在想对字符进行识别，有以下方法：

传统算法

深度学习方法

在2013年之前，传统算法在OCR领域占主导地位，其标准流程包含文本检测、单字符分割、单字符识别、后处理等步骤。例如PhotoOCR算法。PhotoOCR是谷歌公司提出的一套完整OCR识别系统，包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域的组合、基于HOG特征和全连接神经网络的单字符分类、基于ngram方法的识别结果校正。该系统覆盖传统OCR流程每一环节，通过流程细化与每一环节的多类技术集成化，在2013年取得了优异结果，同样也暴露传统方法诸多不足，例如：需要将OCR系统割裂成过多环节、需要在每个环节上引入过多人工干预、需要根据场景设定方法集成、难以做到端到端训练，等等。

自2012年AlexNet在ImageNet竞赛夺冠以来，深度学习方法开始在图像视频领域大幅超越传统算法，并开始扩展到OCR领域，包括基于卷积神经网络和基于长短期记忆的方法等。现在OCR多用卷积神经网络来做，且识别率很好，不再需要花大量时间去设计字符特征。在OCR系统中，人工神经网络主要充当特征提取器和分类器的功能，输入是字符图像，输出是识别结果。CNN方法的出现，最大功能是在特征工程及单字符分类领域替代传统方法，但仍然未能避免传统思路中难度最大的二值化和字符分割问题。在复杂的自然场景、广告场景中，CNN分类方法仍难以满足需要。

应用实例

现在市面上有许多OCR识别软件，包括OCR文字识别软件（e.g.百度智能云；腾讯云「OCR」文字识别等）；OCR表格识别软件（e.g.百度智能云等）；基于OCR技术的化学结构识别软件（e.g.StoneMIND | Collector等）。目前基于OCR技术的软件应用广泛，各个领域都有涉及，大家可按需寻找~~

参考资料：

1.光学字符识别_百度百科

2.OCR技术综述：https://cloud.tencent.com/developer/article/1101042

3.OCR识别之技术篇：https://www.sohu.com/a/303689870_100189372

4.望石智慧官网：https://www.stonewise.cn/mol_product

版权信息

来源：AIDDPro

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

AI/计算软件系列-OCR技术综述

相关推荐