HtmlParser 一个不错的网站爬虫工具

有时候我们需要在网上获取自己需要的内容时,而且需求量达到一定程度时,就要通过代码来实现重复的操作。

当用Java来帮我们解决这个问题时,我们又如何通过Java来过滤掉多余的内容,剩余自己想要的信息呢,这时HtmlParser会是一个不错的选择。

HtmlParser是一个用java语言写的,用来解析html文件(网页)的应用库,主要的作用就是做网页的信息提取。

HtmlParser提供了许多的过滤器给我们选择,而且使用它只需要下载一个jar包,然后向项目导入jar包就可以引用了。

HtmlParser 一个不错的网站爬虫工具

HtmlParser 一个不错的网站爬虫工具 HtmlParser 一个不错的网站爬虫工具

然后,我们就要用htmlparser来为我们提取我们需要的信息

第一种过滤器:LinkStringFilter

(LinkStringFilter(String 属性值)过滤器是根据href连接属性中是否含属性值字段来筛选)

场景:

估计大家都不会讨厌看电影的,那么就先来获取电影的下载链接

有些人也许会感觉纳闷,直接点击链接不就可以了吗,但当你要获取1000个电影的连接时,你就不会这么觉得了)

HtmlParser 一个不错的网站爬虫工具 HtmlParser 一个不错的网站爬虫工具

代码本身是不多的,只是注释有点多。然后我们来拷贝这个网页的ip地址,运行一下这个方法。

HtmlParser 一个不错的网站爬虫工具

有些网页有许多部电影,如果你想把这些电影的下载地址全部获取,怎么办/span>

点击这些链接,只是进去电影的介绍界面,里面才有我们要的下载地址,也就是一个电影至少要点击两次才能下载电影,重复的事情让代码帮我们去完成吧。

分析:首先我们要进入每个电影的介绍界面才能获取电影的下载地址,那么我们就要把它们的介绍地址全部拿过来,然后再循环进入到这些介绍界面获取我们最爱的下载地址。查看网页的源代码寻找一些这些链接的规律。

HtmlParser 一个不错的网站爬虫工具

下面来获取电影的介绍地址(部分代码有提示):

接着我们来获取这些电影介绍地址里面的下载地址:

HtmlParser 一个不错的网站爬虫工具

(TagNameFilter(String 标签名),根据标签名来查找对应的元素)

这个过滤器一般结合其他过滤器来使用,单独使用的查找效果很低,这里就不作范例了。

其他过滤器的使用方法与使用效果可以去查看htmlparser的API文档:点击打开链接

来源:ricky73999

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年1月7日
下一篇 2017年1月7日

相关推荐