Python爬虫实现获取斗鱼主播信息

先下载安装Python以及其编写软件

https://www.python.org/downloads/ Python下载官网
选择版本 下面使用的版本为3.6.5

这里写图片描述
打开安装文件后
这里写图片描述

安装完成后,可以在命令提示符下输入 python 显示如下:

这里写图片描述

下载一堆dll文件放到python.exe的根目录下就行了 下面是我打包好的地址
http://www.52wangjun.cn/dll.zip

下面我们安装一个对python比较友好的编译软件 –PyCharm
https://www.jetbrains.com/pycharm/download/#section=windows 点击右边的

这里写图片描述
然后点击Project Interpreter
这里写图片描述
这里写图片描述
这里写图片描述
我发现首页是一些推荐的主播,并不全面,不能全部爬取,所以我这里选择了分类页
分类页地址:https://www.douyu.com/directory
这里是斗鱼所以的直播分类,我们可以看到所有的分类全部都在这一页,所以我们只需要把每个分类的地址拿到。

在浏览器中按F12,我们看到

这里写图片描述

每个分类都是由

  • 标签写的标签的class为unit,并且含有链接和文本
    这里写图片描述
    我们看到一个2的文件,点击进去
    这里写图片描述
    所有我们只需要从这个api,就能够获取所有的,信息了
    https://www.douyu.com/gapi/rkc/directory/2_350/2
    我们发现这个链接,就两个参数,2_350,2,很明显可能看出,后面的2是第2页,不信的可以,点击3验证一下,那么2_350就是表示分类了,那么还有一个问题需要确定,就是一共有多少页,现在我们回到第一页,看源码,有一个JavaScript标签
    Python爬虫实现获取斗鱼主播信息

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫urllib208904 人正在系统学习中

来源:暗庆余生

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年4月16日
下一篇 2018年4月16日

相关推荐