Hadoop学习

Hadoop

是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统HDFS(Hadoop Distributed File System)和支持MapReduce分布式计算的软件架构

Hadoop的基本框架
  • 一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。
  • NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求
  • NameNode保存了文件系统的三种元数据:1)命名空间,即整个分布式文件系统的目录结构;2)数据块与文件名的映射表;3)每个数据块副本的位置信息,每个数据块默认有3个副本。
  • NameNode程序单独运行于一台服务器节点上,其余服务器的节点,每一台运行一个DataNode程序。
  • HDFS数据块的默认大小是64MB。

MapReduce

目标:实现自动并行化计算

HDFS

六大特征:
– 大规模数据分布存储能力
– 高并发访问能力
– 强大的容错能力
– 顺序式文件访问数据块存储能力
– 简单的一致性模型(一次写多次读,不支持已写入数据更新操作,但允许在文件尾部添加新数据)
– 数据块存储模式

HBase

是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群

Hive

基于Hadoop的一个数据仓库工具

Pig

基于Hadoop的大规模数据分析工具

Zookeeper

是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务

来源:蜡笔小新hyp

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年3月1日
下一篇 2017年3月1日

相关推荐