Python验证码识别 安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

1.安装Pillow

2.安装tesseract-ocr

 OCR(Optical Character Recognition, 光学字符识别) 软件

安装包含两个部分:ORC引擎本身以及对应语言的训练数据

 

github地址:   https://github.com/tesseract-ocr/tesseract

You can either Install Tesseract via pre-built binary package or build it from source.

windows:

The latest installer can be downloaded here: tesseract-ocr-setup-3.05.01.exe and tesseract-ocr-setup-4.00.00dev.exe (experimental). 

 

复制代码 复制代码

 

traineddata存放路径:  $TESSDATA_PREFIX/testdata

3.04版本  ./usr/share/tesseract-ocr/tessdata/

4.0版本  /usr/share/tesseract-ocr/4.00/tessdata/

此外,训练数据还可在通过 tessdata repository 进行下载

 

3.安装pytesseract

 

遇到的问题:

1.FileNotFoundError: [WinError 2] 系统找不到指定的文件

解决方法:

方法1[推荐]: 将tesseract.exe添加到环境变量PATH中,

例如: D:Tesseract-OCR,默认路径为C:Program Files (x86)Tesseract-OCR

注意: 为了使环境变量生效,需要关闭cmd窗口或是关闭pycharm等ide重新启动

方法2: 修改pytesseract.py文件,指定tesseract.exe安装路径

方法3:  在实际运行代码中指定

 

2.pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Tesseract-OCR\tessdata/eng.traineddata’)

 解决方法:

方法1[推荐]: 

将tessdata目录的上级目录所在路径(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中

例如: C:Program Files (x86)Tesseract-OCR

 

方法2:  在.py文件配置中指定tessdata-dir

 

参考文档:

https://pypi.python.org/pypi/pytesseract

https://github.com/tesseract-ocr/tesseract/wiki

 #####################################

转自:https://www.cnblogs.com/hupeng1234/p/7136442.html

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫验证码处理212711 人正在系统学习中

来源:艾欧尼亚归我了

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年6月8日
下一篇 2018年6月8日

相关推荐