一个比较好用的网络爬虫软件GooSeeker

最近要搜集一些新闻语料，看论文发现一个叫GooSeeker的爬虫软件还不错，看了一天多的教程终于跑起来了，趁着这会在抓新浪新闻过来发篇blog。

这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大，后来一想着不正好把跨平台任务交给火狐去做了么，作者真是高明！我是在win7下跑的，linux没试过。

说说黑盒两端吧，我是爬新浪新闻，由这个列表进去再爬新闻内容，最后给出的是由新闻标题和文字内容组成的xml文件，xml很规整，便于下一步自己处理。

主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的，比较麻烦，主要时间再看这个。后者是抓取插件。

下边就流水讲怎样爬这个2级页面的吧

首先打开MetaStudio，将网址放进去，它自动加载进去。

新建一个主题

然后新建bucket，这里边的东西就是你要在该页面爬取得东西。

刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射，前边就是字符对应了，后边这个是他家的特色菜。比较智能吧。

然后添加翻页线内线索Marker，就是控制你下一页下一页的

然后添加二级索引，就是给bucket里的超链接添加的，定义一个主题

然后上传到服务器

然后打开DataScraper开始爬这个列表页，等你觉得够了就退出就行，我现在还没弄懂怎么自动停止。

然后回到metaStudio，在里面识别你给二级索引建立的主题

然后他自动加载一个样本页面，你再选择要抓取那些内容

然后上传到服务器

然后然后打开DataScraper开始爬二级页面，记着要用多少页面就写多少索引

研究了一天半才大致弄清楚这个怎么个工作原理，然后才感觉这个软件写的好。真好。完全成了一个知识体系。看出制作团队功底很深。这种团队或个人早晚会发吧，或者人家已经发了。。。

来源：嗯哼微微笑

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！