用scrapy爬快手视频，详细分解如何翻页爬取并保存视频的相关数据

第一步：分析目标网页

观察该网页为异步还是同步加载，异步加载需去XHR获取数据包

获取数据包，观察有用的信息数据所在的位置

观察是post还是get请求

若是post请求，观察多个数据包的payload是否一致

补充关于payload的知识点：

若请求方法是post，参数用payload传，对应请求写法如下：

非scrapy，在发送请求时，应写为：

requests.post(url = url, headers = headers, json = data)

第二步：创建scrapy爬虫文件

创建爬虫项目scrapy startproject 爬虫项目名

cd 爬虫项目名文件夹

scrapy genspider 爬虫名爬虫名.com

第三步：在爬虫项目名下的爬虫名.py内，建模

修改起始访问url和域名

重构起始请求

解析请求的数据

定义解析获取视频二进制数据的方法

第四步：将item数据传入管道，做数据保存

设置单独存储视频的文件夹，避免视频直接储存在scrapy文件下，显得很乱

保存数据至excel模板，只需要修改第3,4,6,11,16,18行

数据保存为视频格式

要想使管道顺利运行，需在settings.py文件夹将以下几行代码激活

第五步：在__init__.py文件夹运行

运行之前，需在settings.py将以下几行代码注销

之后在__init__.py里输入代码如下

没有运行日志的run界面

来源：虎纹同学

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！