Hawk-数据抓取工具:简明教程

  • 左上角区域:主要工作区,可模块管理。
  • 下方: 输出调试信息,和任务管理,监控一项任务完成的百分比。
  • 右上方区域: 属性管理器,能对不同的模块设置属性。
  • 右下方区域: 显示当前已经加载的所有数据表和模块。

IEnumerable<IFreeDocument>。 IFreeDocument是 IDictionary<string, object>
接口的扩展。 Linq的Select函数能够对流进行变换,在本例中,就是对字典不同列的操作(增删改),不同的模块定义了一个完整的Linq
流:

  1. for tool in tools:
  2. generator = transform(tool, generator)

  1. http://bj.lianjia.com/ershoufang/pg2/
  2. http://bj.lianjia.com/ershoufang/pg3/

  • 双击数据清洗ETL左侧的搜索栏中搜索生成区间数, 将该模块拖到右侧上方的栏目中:
    1. 在右侧栏目中双击生成区间数,可弹出设置窗口, 为该列起名字(id), 最大值填写为100,生成模式默认为Append:
      为什么只显示了前20个这是程序的虚拟化机制, 并没有加载全部的数据,可在ETL属性的调试栏目中,修改采样量(默认为20)。
    2. 将数字转换为url, 熟悉C#的读者,可以想到string.format, 或者python的%符号:搜索合并多列,并将其拖拽到刚才生成的id列, 编写format为下图的格式,即可将原先的数值列变换为一组url

    你可以将一批任务,保存为一个

    来源:rokia_xmu

    声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2016年4月12日
    下一篇 2016年4月13日

    相关推荐