【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)

        对于urllib2的学习,这里先推荐一个教程《IronPython In Action》,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.uk/python/articles/urllib2.shtml

        最基本的爬虫,主要就是两个函数的使用urllib2.urlopen()和re.compile()。

一、网页抓取简单例子

        先来看一个最简单的例子,以百度音乐页面为例,访问返回页面html的string形式,程序如下:

【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)

        程序运行完毕后,html页面存放在当前工程目录下,在左侧Package Explorer里刷新一下,可以看到抓回来的html页面,这里先抓了10个页面,打开一个看看:

【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)

        剩下的就是正则解析提取字段了,主要用到python的re模块。

三、网易微博爬虫软件开发(python版)

        上面只是给出了基本爬取过程,后期加上正则解析提取微博文本数据,中文字符编码处理等等,下面给出这个爬虫软件。(已转换为可执行exe程序)

        完整源码:

实现自定义输入关键词,指定要爬取的页面数据,根据关键词提取页面中的微博信息数据。

  • 自定义搜索关键字
  • 自定义爬取页面数目
  • 非登录,爬取当天微博信息数据存储于本地文件
  • 解析微博页面获取微博文本内容信息
  • 软件为exe程序,无python环境也可运行

实时爬取微博信息数据,数据源 http://t.163.com/tag/searchword/

1.自定义关键词、抓取页面数量

【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)

软件已经放到github,地址 https://github.com/DianaCody/Spider_python/。

软件地址: https://github.com/DianaCody/Spider_python/tree/master/Tweet163_Crawler/release

exe的软件也可以在这里下载:点击下载

http://download.csdn.net/detail/dianacody/8001441

原创文章,转载请注明出处:http://blog.csdn.net/dianacody/article/details/39741413

来源:DianaCody

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2014年9月2日
下一篇 2014年9月5日

相关推荐