python爬虫之woff 超详细 woff字体反扒起点woff爬虫字体爬虫起点中文网woff

前言：这一期，是针对起点中文网的作品详情页爬取，这是对woff反爬的入门，相对美团之类的字体反爬容易一些。短短的几十行代码，逻辑清晰！让你欲罢不能的关注我！有人就要说了，我已经会爬取小说内容，干嘛要爬它，我还是那句话，一切为了提高自己技术！

一：分析页面

今天的主角就是《明朝败家子》这本书确实写得很不错！代入感很强，最主要喜欢大明王朝！额~跑题了！??

1）打开开发者工具，看到这儿字体显示不出来，请求出来也是一个&#xxxxx；这儿就是反扒机制：woff

2）woff文件一般都在css里面：

1）我的思路就是先保存HTML和woff（因为有点懒，懒得去把字爬出来，保存html文档简单快捷）

建议：不要学我，xpath这儿我直接复制浏览器的，图方便，还是自己弄，锻炼一下

记得保存的时候需要用“utf-8”不然有可能乱码

这儿使用的软件“FontCreatorPortable”查看woff字体 html的?就是woff字

如果向看得详细一点，可以保存为xml文件，查看

2）接下来也就简单了，用fontTools库读取woff，组成一个新的字典，替换掉html里的字体

（代码与上面连接的）

3）成果：这不就出来了嘛！

结束语：嗯~是太简单了点

这也只是入门，“天晴了，雨停了，你又觉得你行了的”，去尝试美团吧！思路大致差不多。可以@我，出美团教程！

继续努力！

文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树网络爬虫urllib210558 人正在系统学习中

来源：白寸(渴～知)

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！