大数据计算系统

大数据计算系统

数据存储系统提供:

  • 数据清洗、抽取与建模(将各种类型的结构化、非结构化、异构数据转化为标准存储格式,键值对结构,哈希表(Hash Table)检索)数据,并定义数据属性及值域)
  • 数据存储架构(集中式/分布式文件系统、关系型数据库/分布式数据库、行存储数据结构/列存储数据结构
  • 数据仓库与数据服务
  • 统一数据接口(Unified Data Access Interface)

数据建模

数据模型定义为三个层次:概念模型(conceptual model),逻辑模型(logicmodel),物理模型(physical model)。

●概念模型主要基于用户的数据功能需求产生,通过与客户的交流获得对客户业务要素、功能和关联关系的理解,从而定义出该业务领域内对应于.上述业务要素和功能的实体类(entity class) 。

●逻辑模型则给出更多的数据实体细节,包括主键、外键、属性、索引关系、约束、甚至是视图,以数据表、数据列、值域、面向对象类(object-oriented class)、XML标签等形式来描述。

●物理模型(有时又称为存储模型)则是考虑数据的存储实现方式,包括数据拆分(partition)、数据表空间、数据集成。

大数据计算系统

逻辑存储结构

也称为数据的逻辑结构。数据存储的逻辑模型(抽象模型),即纸面上人们设计的存储模式或数据结构,比如矩阵(matrix) 、树(tree) 、数据库表单(form)等。主要用于表达数据属性及数据元素相互间的管联关系。

大数据计算系统
namenode:主节点
datanode:从节点
client:上层的大数据应用
secondary namenode:主机点的备份节点(主节点一旦出现问题,立刻替代主节点进行工作)
b1、b2、b3、b4:拆分出来的数据块及其备份节点(保证了数据的容错和恢复机制)

不管是主节点还是从节点,都是一台独立的机器,有自己的本地磁盘和CPU。主节点和从节点通过高速网络连接在一起,形成一个Hadoop集群。

优势:

  1. 开源
  2. 易于开发
  3. 运行在廉价通用的设备上
  4. 非常好的扩展性

缺点:

  1. 数据读取速度不够
  2. 不适合处理小尺度文件
  3. 不擅长对单个数据的读取和更新

分布式数据库(NoSQL)

优势:

  1. 不需要提前定义数据结构
  2. 扩展性很强
  3. 运行数据划分
  4. 在一定时间内不用对数据库进行数据同步(关系型数据库所必须的)

NoSQL数据库的4种类型
●键值数据库(key-value store database)
●列存储数据库(column family-oriented database)
●文档数据库(document-oriented database)
●图形数据库(graph-oriented database)

统一数据访问接口

定义:基于统一数据接口用于支持分布式环境中对跨平 台异构数据库访问的数据访问层(DAL)
功能:
一的数据展示、存储和管理
问接口与实现代码分离的原则,底层数据库连接的更改不影响统一数据访问接口.
蔽了数据源的差异和数据库操作细节,使得应用层专注于数据应用
供一个统一的访问界面和一种统一的查询语言

传统的数据库接口软件
1.ODBC接口(c/c++)
定义:是一组数据库访问API (应用程序编程接口),由一组函数调用组成,核心是SQL语句

特性:

  • 用户直接将SQL语句传送给ODBC
  • ODBC对数据库的操作不依赖任何DBMS,不直接与DBMS打交道,所有的数据库操作由对应的ODBC驱动程序完成

2.JDBC接口(Java)
定义:是一个面向对象的数据库的接口规范,定义了一个支持标准SQL查询的通用程序编程接口(API)

特性:

  • 由Java 语言编写的类和接口组成
  • 用于支持Java应用程序对各类数据库的访问
  • 支持同时建立多个数据库连接
  • 可以用SQL语句同时访问多个异构数据库
  • 具有对硬件平台和操作系统的跨平台支持。

统一数据读写接口DAL
定义:基于统一数据接口用于支持分布式环境中对跨平台异构数据库访问的数据访问层(DAL)

功能:

  • 统一的数据展示、存储和管理
  • 访问接口与实现代码分离的原则,底层数据库连接的更改不影响统一数据访问接口
  • 屏蔽了数据源的差异和数据库操作细节,使得应用层专注于数据应用
  • 提供一个统- -的访问界面和一种统一的查询语言

大数据计算系统
大数据计算系统
大数据计算系统

计算模型与计算架构

计算模型:抽象结构+计算范式+算法
计算模型针对领域问题提出技术解决方案的基础模型、数据结构及算法。
例如:

  • MapReduce批处理
  • 图并行计算
  • 交互式处理
  • 流计算
  • 内存计算
  • 数据流图模型(Tensorflow)

计算架构:系统架构+软件设计+实现方法
计算架构提出基于上述模型、在特定计算平台上实现的技术方案框架(系统架构、软件架构与模块、数据流与数据接口、实现原理及方法等)。
例如:

  • Hadoop/HDFS/MapReduce
  • 基于BSP模型的Pregel, HAMA
  • Dremel/PowerDrill, Apache Drill
  • Storm, Spark Stream
  • Spark内存计算,MemCloud
  • Tensorflow

简单描述MapReduce计算模型

基本思想——分治法

大数据计算系统
举例:
大数据计算系统

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8698 人正在系统学习中

来源:取个名字真难啊啊

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月18日
下一篇 2022年1月18日

相关推荐