用scrapy爬快手视频,详细分解如何翻页爬取并保存视频的相关数据

第一步:分析目标网页

观察该网页为异步还是同步加载,异步加载需去XHR获取数据包

获取数据包,观察有用的信息数据所在的位置

观察是post还是get请求

若是post请求,观察多个数据包的payload是否一致

补充关于payload的知识点:

若请求方法是post,参数用payload传,对应请求写法如下:

非scrapy,在发送请求时,应写为:

requests.post(url = url, headers = headers, json = data)


第二步:创建scrapy爬虫文件

创建爬虫项目scrapy startproject 爬虫项目名

cd 爬虫项目名文件夹

scrapy genspider 爬虫名 爬虫名.com

第三步:在爬虫项目名下的爬虫名.py内,建模

用scrapy爬快手视频,详细分解如何翻页爬取并保存视频的相关数据

修改起始访问url和域名


重构起始请求


解析请求的数据


定义解析获取视频二进制数据的方法


第四步:将item数据传入管道,做数据保存

设置单独存储视频的文件夹,避免视频直接储存在scrapy文件下,显得很乱


保存数据至excel模板,只需要修改第3,4,6,11,16,18行


数据保存为视频格式


要想使管道顺利运行,需在settings.py文件夹将以下几行代码激活

用scrapy爬快手视频,详细分解如何翻页爬取并保存视频的相关数据

第五步:在__init__.py文件夹运行

运行之前,需在settings.py将以下几行代码注销

用scrapy爬快手视频,详细分解如何翻页爬取并保存视频的相关数据

之后在__init__.py里输入代码如下


用scrapy爬快手视频,详细分解如何翻页爬取并保存视频的相关数据

没有运行日志的run界面

来源:虎纹同学

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月9日
下一篇 2022年1月10日

相关推荐