python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

前言:这一期,是针对起点中文网的作品详情页爬取,这是对woff反爬的入门,相对美团之类的字体反爬容易一些。短短的几十行代码,逻辑清晰!让你欲罢不能的关注我有人就要说了,我已经会爬取小说内容,干嘛要爬它,我还是那句话,一切为了提高自己技术!

一:分析页面

今天的主角就是《明朝败家子》这本书确实写得很不错!代入感很强,最主要喜欢大明王朝!额~跑题了!??

1)打开开发者工具,看到这儿字体显示不出来,请求出来也是一个&#xxxxx;这儿就是反扒机制:woff

python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

2)woff文件一般都在css里面:

python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

二:解题步骤

1)我的思路就是先保存HTML和woff(因为有点懒,懒得去把字爬出来,保存html文档简单快捷)

建议:不要学我,xpath这儿我直接复制浏览器的,图方便,还是自己弄,锻炼一下

记得保存的时候需要用“utf-8”不然有可能乱码

这儿使用的软件“FontCreatorPortable”查看woff字体   html的?就是woff字

如果向看得详细一点,可以保存为xml文件,查看 

python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

2)接下来也就简单了,用fontTools库读取woff,组成一个新的字典,替换掉html里的字体

(代码与上面连接的)

3)成果:这不就出来了嘛!

python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

结束语:嗯~是太简单了点

这也只是入门,“天晴了,雨停了,你又觉得你行了的”,去尝试美团吧!思路大致差不多。可以@我,出美团教程!

继续努力!

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫urllib210558 人正在系统学习中

来源:白寸(渴~知)

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年6月1日
下一篇 2021年6月1日

相关推荐