OCR识别的技术流程解析1-编程学习网

一、OCR识别预处理：灰度化（如果是彩色图像）、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后，图像只剩下两种颜色，即黑和白，其中一个是图像背景，另一个颜色就是要识别的文字了；降噪在这个阶段非常重要，降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸，在同一个规格下，才能应用统一的算法。

OCR识别的技术流程解析1

二、特征提取和降维：特征是用来识别文字的关键信息，每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说，这个特征提取是比较容易的，因为数字只有10个，英文字母只有52个，都是小字符集。对于汉字来说，特征提取比较困难，因为首先汉字是大字符集，国标中光是最常用的第一级汉字就有3755个；第二个汉字结构复杂，形近字多。在确定了使用何种特征后，视情况而定，还有可能要进行特征降维，这种情况就是如果特征的维数太高（特征一般用一个向量表示，维数即该向量的分量数），分类器的效率会受到很大的影响，为了提高识别速率，往往就要进行降维，这个过程也很重要，既要降低维数吧，又得使得减少维数后的特征向量还保留了足够的信息量（以区分不同的文字）。

OCR识别的技术流程解析1

三、分类器设计、训练和实际识别：分类器是用来进行识别的，就是对于第二步，对一个文字图像，提取出特征给分类器，分类器就对其进行分类，告诉你这个特征该识别成哪个文字。在进行实际识别前，往往还要对分类器进行训练，这是一个监督学习的案例。

四、OCR识别后处理：后处理是用来对分类结果进行优化的，第一，分类器的分类有时候不一定是完全正确的，比如对汉字的识别，由于汉字中形近字的存在，很容易将一个字识别成其形近字。后处理中可以去解决这个问题，比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”，通过语言模型会发现“存哪里”是错误的，然后进行校正。第二，OCR识别图像往往是有大量文字的，而且这些文字存在排版、字体大小等复杂情况，后处理中可以尝试去对识别结果进行格式化，比如按照图像中的排版排列。

文章详情

OCR识别的技术流程解析1

软考中级精品资料免费领

相关文章

猜你喜欢

OCR识别的技术流程解析1

TH-OCR文字识别技术的示例分析

PHP中的OCR识别技术指南

云沙箱流量识别技术剖析

Golang与FFmpeg: 实现实时视频流分析与识别的技术

人脸识别技术的难处讲解

什么是人脸识别？你真的了解人脸识别技术吗？

实时监控图像中的人脸识别：理解人脸识别技术指南

人脸识别技术的发展前景以及原理剖析

带你了解语音识别技术的发展历史

实例讲解基于Volatility的内存分析技术Part 1

关于生物识别技术的最大误解是什么

8月1日起，人脸识别技术有了新解释，违规将面临法律风险

生物特征识别技术丨解开身体密码的“黑科技”

视频分析技术在人员身份识别任务中的应用

人脸识别技术：智慧城市的智慧解决方案

如何通过特定的技术解决方案探索技术采购流程

Golang技术在区块链共识机制中的实现解析

新冠大流行扩大了非接触式生物识别技术的应用范围

基于AI的人脸识别是工厂的下一个技术里程碑