? 后羿采集器——最良心的爬虫软件

? 后羿采集器——最良心的爬虫软件

2.功能强大

后羿采集器把采集工作分为两种类型:智能模式流程图模式

? 后羿采集器——最良心的爬虫软件

4.教程详细

我在本文动笔之前曾经想过先写几篇后羿采集器的使用教程,但是看了他们的官网教程后就知道没这个必要了,因为写的实在是太详细了。

后羿采集器的官网提供了两种教程,一种是视频教程,每个视频五分钟左右;一种是图文教程,手把手教学。看完这两类教程后还可以看看他们的文档中心,写的也非常详细,基本覆盖了该软件的各个功能点。

? 后羿采集器——最良心的爬虫软件

2.翻页功能

我在介绍 web scraper 时曾把网页翻页分为 3 大类:滚动加载分页器加载点击下一页加载

? 后羿采集器——最良心的爬虫软件

3.复杂表单

对于一些多项联动筛选的网页,后羿采集器也能很好的处理。我们可以利用后裔采集器里的流程图模式,去自定义一些交互规则。

例如下图,我就利用了流程图模式里的点击组件模拟点击筛选按钮,非常方便。

? 后羿采集器——最良心的爬虫软件

经过我个人的几次测试,我认为流程图模式有一定的学习门槛,但是和从头学习 python 爬虫比起来,学习曲线还是缓和了不少。如果对流程图模式很感兴趣,可以去官网上学习,写的非常详细。

3.XPath/CSS/Regex

无论是什么爬虫软件,他们都是基于一定的规则去抓取数据的。XPath/CSS/Regex 就是几个常见的匹配规则。后羿采集器支持自定义这几种选择器,可以更灵活的选择要抓取的数据。

比如说某个网页里存在数据 A,但只有鼠标移到对应的文字上才会以弹窗的形式显示出来,这时候我们就可以自己写一个对应的选择器去筛选数据。

? 后羿采集器——最良心的爬虫软件

来源:卤蛋实验室

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年6月23日
下一篇 2020年6月23日

相关推荐