python爬虫爬取猫眼电影Top100

很早就对爬虫有所耳闻,于是乎就在网上买了一本python爬虫的书,在学习的过程中也想做一些笔记与大家分享分享,勿喷

1.准备工作

  • 环境:python3(本人用的是anaconda ,里面已经集成了很多python需要的库以及依赖的包)
  • 运行软件:pycharm
  • 浏览器:谷歌
  • 爬取方法:正则表达式

2.分析网站

2.1. 猫眼电影top100:http://maoyan.com/board/4

python爬虫爬取猫眼电影Top100
2.3. 发现每一部电影都是一个dd标签,我们需要爬取它的排名、图片地址、电影名称、主演名单、上映时间以及评分。排名信息就在class为board-index的i节点内,使用非贪婪(.*来提取i节点内的信息

2.4. 接下来就是提取电影图片链接,经过检查第二个img节点的data-src属性是图片链接,正则如下

2.5.再往后就是提取电影的名称,它在下面的p节点内,class为name,用name做一个标志位,进一步提取a节点中的正文内容,如下

2.6.最后提取主演、发布时间、评分都是以此类推

3.抓取首页排行

  • 代码如下

结果

python爬虫爬取猫眼电影Top100

结果

python爬虫爬取猫眼电影Top100
至此,猫眼电影Top100信息爬取完毕

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫urllib210031 人正在系统学习中

来源:潘得彼

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年9月22日
下一篇 2018年9月22日

相关推荐