一个比较好用的网络爬虫软件GooSeeker

     最近要搜集一些新闻语料,看论文发现一个叫GooSeeker的爬虫软件还不错,看了一天多的教程终于跑起来了,趁着这会在抓新浪新闻过来发篇blog。

     这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大,后来一想着不正好把跨平台任务交给火狐去做了么,作者真是高明!我是在win7下跑的,linux没试过。

     说说黑盒两端吧,我是爬新浪新闻,由这个列表进去再爬新闻内容,最后给出的是由新闻标题和文字内容组成的xml文件,xml很规整,便于下一步自己处理。

     主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的,比较麻烦,主要时间再看这个。后者是抓取插件。

     下边就流水讲怎样爬这个2级页面的吧

     首先打开MetaStudio,将网址放进去,它自动加载进去。

     新建一个主题

     然后新建bucket,这里边的东西就是你要在该页面爬取得东西。

     刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射,前边就是字符对应了,后边这个是他家的特色菜。比较智能吧。

     然后添加翻页线内线索Marker,就是控制你下一页下一页的

     然后添加二级索引,就是给bucket里的超链接添加的,定义一个主题

     然后上传到服务器

     然后打开DataScraper开始爬这个列表页,等你觉得够了就退出就行,我现在还没弄懂怎么自动停止。

     然后回到metaStudio,在里面识别你给二级索引建立的主题

     然后他自动加载一个样本页面,你再选择要抓取那些内容

     然后上传到服务器

     然后然后打开DataScraper开始爬二级页面,记着要用多少页面就写多少索引

     

     研究了一天半才大致弄清楚这个怎么个工作原理,然后才感觉这个软件写的好。真好。完全成了一个知识体系。看出制作团队功底很深。这种团队或个人早晚会发吧,或者人家已经发了。。。

来源:嗯哼微微笑

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2014年1月16日
下一篇 2014年1月17日

相关推荐