大数据基础平台架构和其价值,你知道多少?

大数据基础平台是大数据的根基所在,大数据的上层应用都需要大数据基础平台提供数据存储和运算能力,本文中的三家工业客户都部署实施了该基础平台。

工业大数据分析平台,为您提供从数据采集、数据准备、数据建模、可视化分析的端到端解决方案。

工业大数据系统数据架构

大数据基础平台架构和其价值,你知道多少?

从整体架构可以看出,“大数据基础平台部分”采取的策略准则是尽量减少对原有系统的修改,通过基于模块化的交付方式提供基于大数据的分布式存储能力、分布式计算能力和智能建模能力。

大数据基础平台:提供前端工业数据的批量及实时处理能力,分布式存储及计算能力,大数据基础平台数据管理能力。数据对象模型、工业对象模型的定义及实例的存储。


大数据基础平台


大数据基础平台是大数据的根基所在,大数据的上层应用都需要大数据基础平台提供数据存储和运算能力,本文中的三家工业客户都部署实施了该基础平台。

1. 大数据基础平台的主要组件和架构如下图所示:

大数据基础平台架构和其价值,你知道多少?

Flume

1) Flume支持多种接入资源数据的类型以及接出数据类型,可以高效率的将多个数据源的数据发送至下游系统。

2) 当收集数据的速度超过将写入数据的时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据。.

3) Flume的管道是基于事务,保证了数据在传送和接收时的一致性。

4) 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。

Kafka

1) 分布式,可划分,可靠性强的日志服务。

2) 以时间复杂度为O(1)的方式提供消息持久化能力。

3) 高吞吐率,即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。

4) 支持Kafka Server间的消息分区及分布式消费,同时保证每个Partition内的消息顺序传输。

5) 同时支持离线数据处理和实时数据处理。

6) 支持在线水平扩展。

Oozie

1) Oozie是管理Hadoop作业的工作流调度系统

2) Oozie的工作流是一系列的操作图

3) Oozie协调作业是通过时间(频率)以及有效数据触发当前的Oozie工作流程

4) Oozie是针对Hadoop开发的开源工作流引擎,专门针对大规模复杂工作流程和数据管道设计

5) Oozie围绕两个核心:工作流和协调器,前者定义任务的拓扑和执行逻辑,后者负责工作流的依赖和触发。

Zookeeper

1) 为了允许在分布式系统中对共享资源进行有序的访问,提供分布式互斥功能。

2) 与互斥同时出现的是同步访问共享资源的需求。无论是实现一个生产者消费者队列,还是实现一个障碍,Zookeeper 都提供一个简单的接口来实现该操作。

3) Zookeeper可用于处理分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

4) 分布式系统可能必须处理节点停机的问题,Zookeeper 通过领导者选举对此提供现成的支持。

Hive

1) Hive本身不支持数据存储和运算,完全依赖HDFSMapReduceSparkTez中的一种。

2) 数据模型和关系数据库类似,为结构化的表;列的数量有限。

3) 同时支持行存储与列存储,但数据处理逻辑是基于行的模式。

4) 有限支持Update以及Delete操作(部分表类型支持,但计算时延高开销大)。

5) 不能保证处理的低迟延问题,适用于离线的批量数据计算。

6) SparkHbaseImpala等组件有良好的交互。

7) Hive的版本更新或更改计算引擎不会影响到当前的语法,只会添加语句,语法以及API接口,或者优化内部算法。

Spark

1) RDD,弹性分布式数据集,是一种编程抽象,代表可以跨机器进行分割的只读对象集合。RDD可以从一个继承结构(lineage)重建,提供了完善容错机制。同时,RDD支持并行操作,可以效率的读写HDFSS3等分布式存储。

2) 由于RDD可以被缓存,因而避免了复杂运算中多次与HDFS交换数据流,同时避免在HDFS存储读取临时数据,简化了数据流。因此,Spark对迭代应用特别有效。大多数机器学习和最优化算法都是迭代的,使得Spark对数据科学来说是个非常有效的工具。

3) Spark支持多种语言,目前版本(2.2.0)可以在Shell中使用PythonJava以及Scala语言交互。

 

2. 平台的价值

大数据基础平台实现了一个分布式文件系统,该文件系统有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合有超大数据集的应用程序。平台支持以流的形式访问文件系统中的数据。

大数据基础平台在数据准备(Data Preparation)方面上具备天然的优势。平台的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像数据准备这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。平台实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。


关于大数据分析平台

大数据分析平台「GetInsight升级发布,将基于企业管理驾驶舱产品质量分析及预测设备分析及预测等大数据模型的构建,助力企业由传统运营模式向数字化、智能化的新模式转型升级,抓住数据经济的发展势头,提供管理效能,精准布局未来。了解更多,请联系在线客服

大数据专业团队为企业提供商业智能大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打热线或咨询在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!

标签:

来源:慧都

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年5月19日
下一篇 2020年5月19日

相关推荐

发表回复

登录后才能评论