第一步:分析目标网页
观察该网页为异步还是同步加载,异步加载需去XHR获取数据包
获取数据包,观察有用的信息数据所在的位置
观察是post还是get请求
若是post请求,观察多个数据包的payload是否一致
补充关于payload的知识点:
若请求方法是post,参数用payload传,对应请求写法如下:
非scrapy,在发送请求时,应写为:
requests.post(url = url, headers = headers, json = data)
第二步:创建scrapy爬虫文件
创建爬虫项目scrapy startproject 爬虫项目名
cd 爬虫项目名文件夹
scrapy genspider 爬虫名 爬虫名.com
第三步:在爬虫项目名下的爬虫名.py内,建模
修改起始访问url和域名
重构起始请求
解析请求的数据
定义解析获取视频二进制数据的方法
第四步:将item数据传入管道,做数据保存
设置单独存储视频的文件夹,避免视频直接储存在scrapy文件下,显得很乱
保存数据至excel模板,只需要修改第3,4,6,11,16,18行
数据保存为视频格式
要想使管道顺利运行,需在settings.py文件夹将以下几行代码激活
第五步:在__init__.py文件夹运行
运行之前,需在settings.py将以下几行代码注销
之后在__init__.py里输入代码如下
没有运行日志的run界面
来源:虎纹同学
声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!