python爬虫-视频爬虫(1)

python爬虫-视频爬虫(1)

一、视频爬虫介绍
本篇文章主要是针对直接可以找到完整视频的链接(可能需要拼接成完整链接)进行下载的那一类视频爬虫

二、视频爬虫步骤
和所有的爬虫一样,首先熟悉你需要爬虫的网页,从中找到我们需要下载的视频的链接、或者可以拼接成视频的下载链接,最后才是把这个过程用python代码来实现自动化。

三、爬虫代码的实现
以【好看视频】网址为例
和图片的爬虫不同,图片的链接都是可以在网页的源码中找到的,而视频需要你打开F12刷新网页查看接口请求,从接口的响应里面获取数据;

让我们先打开视频,然后再打开F12查看接口请求,视频一定要播放一会儿或者正在播放着,方便于你找寻接口;

python爬虫-视频爬虫(1)
就是它,是不是发现和播放的视频一样,没错,我们找到这个视频的链接了,可以直接通过这个链接进行下载
python爬虫-视频爬虫(1)
同样打开F12你下滑一下就会发现页面多了一些视频同时多了一个接口请求,这是请求就是用来获取视频的列表的,让我们看一下请求里面返回的什么吧
python爬虫-视频爬虫(1)
**
看我们发现了啥play_url,播放的url,看着挺像的,话不多说复制链接打开看一下
python爬虫-视频爬虫(1)

下面是执行结果

python爬虫-视频爬虫(1)

四、拓展

一个列表的数据下载完成了,这个时候我们就会想啦,我要爬取多个列表的数据呢,那这么操作;
一样的道理,让我们对比一下列表的请求参数看看有哪些是代表列表的页数的
第一个列表:https://haokan.baidu.com/web/video/feedab=youxi_new&act=pcFeed&pd=pc&num=20&shuaxin_id=1626341555015

第二个列表:https://haokan.baidu.com/web/video/feedab=youxi_new&act=pcFeed&pd=pc&num=20&shuaxin_id=1626341555015

嗯么是一样的传参,那让我们来看看他们的响应

python爬虫-视频爬虫(1)
四个参数,根据名字我们就可以猜测出:
tab:youxi_new youxi我们大胆猜测一下,当前访问游戏频道所以是游戏的拼音,那我们需要爬哪个的时候不就更换成指定的比如说娱乐:yule_new
act:pcFeed 不知道啥意思,应该带代表电脑端请求的
pd:pc 也不知道啥意思,不过不应该,猜测和上面一直,咱们也不用管他
num:20 num量回的视频数量比一下还真是
shuaxin_id:1626341555015 这一串看着熟悉,时间戳了一下发现位数多了三个,猜测是随机数,尝试了一下果然很随机

我们只需要改一下tab就可以;

代码写的有点糙,没做异常的处理和视频下载进度时间显示等。

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫urllib209436 人正在系统学习中

来源:${老夫的少女心}

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年6月12日
下一篇 2021年6月12日

相关推荐