大数据Hadoop3.X 第一、二章

大数据全套视频教程B站直达免费在线看:https://space.bilibili.com/302417610/channel/seriesdetailid=457614
免费视频及资料下载地址:https://pan.baidu.com/s/18Feqa_63640xPB0fYJ8Ttg,提取码:9bnr
学习路线及下载导航:http://www.atguigu.com/bigdata_video.shtml#bigdata

第1章 大数据概论

1.1 大数据概念

  • 大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

按顺序给出数据存储单位:bit、byte、kb、MB、GB、TB、PB、ZB、YB、BB、NB、DB 1byte=8bit、1kb=1024byte、1MB=1024kb、1G=1024MB、1T=1024G、1P=1024T

  • 主要解决,海量数据的采集存储和海量数据的分析计算问题。

1.2大数据特点(4V)

  • 大量(volume)
  • 截至目前,人类生产的所有印刷材料的数据量是200PB, 而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
  • 高速(velocity)
  • 这是大数据区分于传统数据挖掘的最显著特征。根据IDC的”数字宇宙”的报告,预计到2020年,全球数据使用量将达到163ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
  • 天猫双十一: 2017年3分01秒,天猫交易额超过100亿
  • 多样(variety)
  • 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  • 低密度价值(value)
  • 价值密度的高低与数据总量的大小成反比。比如,在- -天监控视频中,我们只关心宋老师晚上在床上健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。更高要求。

1.3 大数据应用场景

  • 1、物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
  • 2、零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
  • 3、旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
  • 4、商品广告推荐:给用户推荐可能喜欢的商品
  • 5、保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。
  • 6、金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。
  • 7、房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。
  • 8、人工智能

1.4 大数据发展前景

  • 2020年5G元年

1.5 大数据部门业务流程分析

大数据Hadoop3.X 第一、二章

第2章 从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

  • 1 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 2主要解决,海量数据的存储和海量数据的分析计算问题。
  • 3广义上来说,Hadoop通常是指一 个更广泛的概念一一 Hadoop生态圈。

2.2 Hadoop发展历史

  • Hadoop创始人Doug Cutting
  • (1) Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它是供了全文检索引擎的架构,包括完整的查询弓|擎和索引引擎。
  • (2) 200 I年年底Lucene成为Apache基金会的一个子项目。
  • (3)对于海量数据的场景,Lucene 面对与Google同样的困难,存储数据困难,检索速度慢。
  • (4)学习和模仿Google解决这些问题的办法:微型版Nutch。
  • (5)可以说Google是Hadoop的思想之 源(Google在大数据方面的三篇论文)
  • GFS –>HDFS
  • Map- Reduce–>MR .
  • BigTable –>HBase
  • (6) 2003-2004年, Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
  • (7) 2005 年Hadoop作为Lncene的子项目Nutch的一部分正式引|入Apache基金会。
  • (8) 2006 年3月份,Map-Reduce和Nutch Distributed File System (NDFS )分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。
  • (9)名字来源于Doug Cutting儿子的玩具大象

2.3 Hadoop三大发行版本

  • Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
  • Apache版本最原始(最基础)的版本,对于入门学习最好。
  • Cloudera在大型互联网企业中用的较多。
  • Hortonworks文档较好。
  • Apache Hadoop
    官网地址:http://hadoop.apache.org/releases.html
    下载地址:https://archive.apache.org/dist/hadoop/common/
  • Cloudera Hadoop
    官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
    下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
  • Hortonworks Hadoop
    官网地址:https://hortonworks.com/products/data-center/hdp/
    下载地址:https://hortonworks.com/downloads/#data-platform

2.4 Hadoop的优势(4高)

  • (1)高可靠性: Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  • (2)高扩展性:在集群间分配任务数据,可方便的扩展数以干计的节点。
  • (3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  • (4)高容错性:能够自动将失败的任务重新分配。

2.5 Hadoop组成(重点)

大数据Hadoop3.X 第一、二章
  • yet another resource negotiator 简称YARN,另一个资源协调者,是Hadoop的资源管理器
  • YARN架构概述
  • ResourceManager(RM):整个集群资源(内存、CPU)的老大
  • NodeManager(NM):单个节点服务器资源老大
  • ApplicationMaaster(AM):单个任务运行的老大
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等
  • 说明
  • 客户端可以有多个
  • 集群上可以运行多个ApplicationMaster
  • 每个NodeManager上可以有多个Container

2.5.3 MapReduce架构概述

  • MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-25所示
  • (1)Map阶段并行处理输入数据
  • (2)Reduce阶段对Map结果进行汇总
    大数据Hadoop3.X 第一、二章

    2.6 大数据技术生态体系

    大数据Hadoop3.X 第一、二章

    来源:hannah2sah

    声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年2月16日
下一篇 2022年2月17日

相关推荐