python爬虫-31-python图形验证码进阶,识别中文(二)

图片

然后我们写出如下代码:

运行结果:

可以看到并没有识别出来,是乱码;

2、安装tesseract新版本+tesseract语言包

通过识别图形中文乱码,是因为你安装的时候没有选择合适的语言进行安装,上一文中我们是直接默认下一步安装的,且安装版本是,这个版本在安装的时候确实可以选择其他语言进行支持,但是你,并。且官网也没有对应该版本的语言支持包,所以我这里重新找了一个****版本的程序包进行安装,这个软件包是没有问题的;

获取软件包的方式为:

微信公众号“运维家”,后台回复:软件包

即可获取软件包的网盘下载地址了;

这个软件安装的过程中,安装路径必须选择:

如果是务必选择以上路径进行安装哈;

我们可以选择语言,点击前面的符号,就会展示出来很多语言,如果识别的内容比较复杂,建议全选,将所有的语言包都下载下来,我这里为了演示,只选择了和中文有关的,也就是抬头是“Chinese”的;

图片

出现下面的界面就表示安装成功了;

图片

软件无法下载语言包,或者下载语言包失败,如果有这种问题,是因为啥呢简单了,就是因为他的语言包在国外,网络不稳定所导致的,那么我们如何解决呢,我这里准备了一份完整的语言包,直接解压覆盖你安装路径中的这个文件夹即可。

获取语言包的方式为:

微信公众号“运维家”,后台回复:语言包

即可获取语言包的网盘下载地址了;

然后我们需要将这个路径下的内容全部拷贝到目录下方可,不然会报错以下信息:

3、再次使用tesseract进行中文识别

先来看下他现在支持多少种语言了吧;

运行结果如下:

当使用我上面提供的语言包之后,就会发现支持的语言变成了下面这么多:

这个时候我们再次来识别文章最开始的时候的图片,来看看是否识别出来了吧。

运行结果如下:

那么我们再来识别一张字比较多的图片再试试呢,例如:

运行代码

结果:

不可避免有一些错字,但是已经很少了。

至此,本文结束。相关内容每日更新。

更多内容请转至VX公众号 “运维家” ,获取最新文章。

—— “运维家” ——
—— “运维家” ——
—— “运维家” ——

linux系统下,mknodlinux,linux目录写权限,大白菜能安装linux吗,linux系统创建文件的方法,领克linux系统怎么装软件,linux文本定位;
ocr识别linux,linux锚定词尾,linux系统使用记录,u盘有linux镜像文件,应届生不会Linux,linux内核64位,linux自启动管理服务;
linux计算文件夹大小,linux设备名称有哪些,linux能用的虚拟机吗,linux系统进入不了命令行,如何创建kalilinux,linux跟so文件一样吗。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫验证码处理210888 人正在系统学习中

来源:运维家

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年5月19日
下一篇 2022年5月19日

相关推荐