学习笔记 – Hadoop-Hive 介绍

学习笔记 – Hadoop-Hive 介绍

1 背景

当前用户数据都是以“亿”为单位进行考量,传统数据库无法满足快速增长的海量数据存储需求,其计算和处理能力也大大不足。数据仓库有分布式存储与处理能力,将各种数据源整合集成到统一的数据中心,防止数据在传递过程中格式参差不齐,解决数据壁垒。常见的数据仓库产品如下:

alt
2.2 分布式计算MapReduce

简单举例说明MapReduce的计算原理,如:

Input (内容)→ spliting (拆分运算)→ Mapping(分开后,各自计算,Shulffing,得到分布式结果)→ Reducing(合,汇总)→Final Result

alt

分布式计算:如129M的文件,存在不同的集群上面,和同时进行计算,然后进行整合;

向数据靠拢:MapReduce,将计算代码分发到DataNode之后,数据会执行代码,不用把数据都整合在一起再执行代码;

JobTracker监控:通过心跳机制进行监控,做负载均衡;

alt

Hive 工具原理:

示例语句: select uid,gender from user where gender = ‘1’;

HDFS客户端拿到代码后,NameNode 识别出user表,分布计算程序代码,得到结果后进行一次where的筛选,然后进行reducing汇总,输出结果。

alt

分层示例参考文章:

https://blog.csdn.net/lightupworld/article/details/108716552

3. Hue 环境使用

Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡 献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。

通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作 HDFS上的数据,运行MapReduce Job,执行Hive的HQL语句,浏览HBase数据库等等(相当于Navicat,优点是不用安装,相当于单机版Navicat)

访问网站: http://106.75.255.77:8000/

本文由 mdnice 多平台发布

来源:thatdanielyang

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年9月8日
下一篇 2022年9月8日

相关推荐