爬虫怎样绕过验证码?

1,cookie登录

利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录

cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的

2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码

软件tesserract-ocr先安装,然后安装pytesserract类库

注意:

1Windows需要下载软件安装包,再配置环境变量             

2linux  直接在命令窗口输入:sudo apt-get tesseract-ocr

模拟浏览器,selenium和PIL库的截屏功能,来识别验证码(save_screenshot截图)

3打码平台

打码兔和QQ超人打码,有提供Python的接入方式,人工打码平台需要收费。

以QQ超人打码平台,先要注册开发者账号,在识别程序中需要填写个人账号进行认证计费,登录之后接入,开始计费(一个码六分钱)

4selenium 来模拟拉动来破解滑动验证码

由于时间过久,滑动验证码已经更改,滑动验证码已经被放弃,现仅供参考使用 

 

来源:赶在日落之前

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年1月12日
下一篇 2020年1月12日

相关推荐