如何不写代码通过爬虫软件采集表格数据

        采集表格内容,包括列表形式的商品评论信息、正文中的表格等,凡是html代码采用<table>表单形式的表格,都可以不写代码,通过可视化的方式完成采集。

        首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。

        下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。

        在ForeSpider中,采集表格的功能称之为“多值”。多值用于存储表格的数据,将表格的不同列对应存入不同字段,表格的不同行分别存储为数据表的多条记录。本文以某表格为例。

如何不写代码通过爬虫软件采集表格数据

【多值的表结构】

        1.主键

        采集表格时,表格的一行作为一条数据。由于整个表格属于同一个网页文档,而文档主键只有一个,因此不能像采集其他内容一样,取值类型选择“文档主键”。

        表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值唯一”和“索引字段”。)

如何不写代码通过爬虫软件采集表格数据

【其他字段的配置】

(二)创建数据抽取

        创建数据抽取,为其选择表单“表格”。

如何不写代码通过爬虫软件采集表格数据

【保存表格】

(四)字段取值

        主键字段不需要配置。存储表格内容的字段需要一一取值。

        点击数据抽取的字段,为其一一配置表格不同列的数据。点击“

如何不写代码通过爬虫软件采集表格数据

【预览结果】

来源:雨霖铃儿

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2016年6月7日
下一篇 2016年6月7日

相关推荐

iruanshi.com/news2/author/jinwe2022"} }