短信预约-IT技能免费直播动态提醒

短信预约提醒成功

python图片文本识别的简单实现

2023-01-31 02:34

关注

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html

Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议使用Anaconda.

pytesser是谷歌OCR开源项目的一个模块，在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在Python中调用pytesser模块时，pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下：

首先，安装Python2.7版本，这个版本比较稳定，建议使用这个版本。

其次，安装python opencv，请自行百度之。

然后，安装PIL工具，下载的地址是：http://www.pythonware.com/products/pil/，pytesser的使用需要PIL库的支持。

接着下载pytesser，下载的地址是：https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/pytesser/pytesser_v0.0.1.zip
如果翻不了墙的话，请使用如下：pytesser下载：http://code.google.com/p/pytesser/ 若打不开，可通过百度网盘下载：http://pan.baidu.com/s/1o69LL8Y

最后，将pytesser解压，这个是免安装的，可以将解压后的文件cut到Python安装目录的Lib\site-packages下直接使用，比如我的安装目录是：C:\Python27\Lib\site-packages，同时把这个目录添加到环境变量之中。

完成以上步骤之后，就可以编写图片文本识别的Python脚本了。参考脚本如下：

from pytesser.pytesser import image_to_string

from PIL import *
import Image
import ImageEnhance

image = Image.open(r"D:\workstation\driving_licence.jpg")

#使用ImageEnhance可以增强图片的识别率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)

print image_to_string(image_enhancer)

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识

下载地址：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载之后进行安装，不再演示。

在tesseract目录下，有个tesseract.exe文件，主要调用这个执行文件，用cmd运行到这个目录下，在这个目录下同时放置一张需要识别的图片，这里是driving_license.jpg

然后运行:tesseract driving_license.jpg result

会把driving_license.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好，要下载一个中文包：https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

然后找到tessdata目录，把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

问题一的解决链接：

其实就是下载一个兼容 python2.7 Pillow-2.1.0.win-amd64-py2.7.exe

Python Error in image_to_string

阅读原文内容投诉

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

历年真题答案解析
备考技巧名师总结
高频考点精准押题

资料下载
历年真题

2024上半年软考中级软件测评师考试基础知识真题
193.9 KB下载数265
2024上半年软考中级软件设计师考试基础知识真题
191.63 KB下载数245
2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）
143.91 KB下载数1142
2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)
183.71 KB下载数642
2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案
644.84 KB下载数2755

2024年上半年信息系统项目管理师第二批次真题及答案解析（完整版）
难度 807人已做
查看
【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析
难度 351人已做
查看
【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析
难度 314人已做
查看
2024年上半年软考高项第一、二批次真题考点汇总（完整版）
难度 433人已做
查看
2024年上半年系统架构设计师考试综合知识真题
难度 221人已做
查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机

python图片文本识别的简单实现

后端开发2023-01-31

【Python】Python简单的图片识

后端开发2023-01-31

非常简单的Python识别图片验证码实现过程

后端开发2024-04-02

Python 图片文字识别的实现之PaddleOCR

后端开发2024-04-02

Python如何实现图片文字识别

后端开发2023-06-25

python简单实现图片文字分割

后端开发2024-04-02

Android实现图片文字识别

后端开发2024-04-02

SpringBoot+OCR 实现图片文字识别

后端开发2024-04-02

【Python • 图片识别】pytesseract快速识别提取图片中的文字

后端开发2023-09-10

python实现简单爬取图片保存到本地

后端开发2023-01-31

Python通过pytesseract库实现识别图片中的文字

后端开发2023-05-19

Python实现识别图片为文字的示例代码

后端开发2024-04-02

python实现简单爬虫--爬图片

后端开发2023-01-31

python利用pytesseract快速识别提取图片中的文字((图片识别)

后端开发2022-11-13

python实现识别相似图片小结

后端开发2022-06-04

Python实现批量识别图片文字并存为Excel

后端开发2024-04-02

Python如何实现简单网页图片

后端开发2023-06-01

python简单验证码识别的实现过程

后端开发2024-04-02

Python实现.gif图片拆分为.png图片的简单示例

后端开发2023-01-28

用Python实现几个简单的图片特效

后端开发2023-01-31

位置：首页-资讯-后端开发

咦！没有更多了？去看看其它编程学习网内容吧