大数据全套视频教程B站直达免费在线看：https://space.bilibili.com/302417610/channel/seriesdetailid=457614
免费视频及资料下载地址：https://pan.baidu.com/s/18Feqa_63640xPB0fYJ8Ttg，提取码：9bnr
学习路线及下载导航：http://www.atguigu.com/bigdata_video.shtml#bigdata

第1章大数据概论

1.1 大数据概念

大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

按顺序给出数据存储单位：bit、byte、kb、MB、GB、TB、PB、ZB、YB、BB、NB、DB 1byte=8bit、1kb=1024byte、1MB=1024kb、1G=1024MB、1T=1024G、1P=1024T

主要解决，海量数据的采集、存储和海量数据的分析计算问题。

1.2大数据特点（4V）

大量（volume）
截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。
高速（velocity）
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的”数字宇宙”的报告，预计到2020年，全球数据使用量将达到163ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。
天猫双十一: 2017年3分01秒,天猫交易额超过100亿
多样（variety）
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网络日志音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。
低密度价值（value）
价值密度的高低与数据总量的大小成反比。比如，在- -天监控视频中，我们只关心宋老师晚上在床上健身那一分钟，如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。更高要求。

1.3 大数据应用场景

1、物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
2、零售:分析用户消费习惯,为用户购买商品提供方便，从而提升商品销量。
3、旅游:深度结合大数据能力与旅游行业需求，共建旅游产业智慧管理、智慧服务和智慧营销的未来。
4、商品广告推荐:给用户推荐可能喜欢的商品
5、保险:海量数据挖掘及风险预测，助力保险行业精准营销，提升精细化定价能力。
6、金融:多维度体现用户特征，帮助金融机构推荐优质客户，防范欺诈风险。
7、房产:大数据全面助力房地产行业，打造精准投策与营销，选出更合适的地，建造更合适的楼,卖给更合适的人。
8、人工智能

1.4 大数据发展前景

2020年5G元年

1.5 大数据部门业务流程分析

第2章从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

1 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2主要解决，海量数据的存储和海量数据的分析计算问题。
3广义上来说，Hadoop通常是指一个更广泛的概念一一 Hadoop生态圈。

2.2 Hadoop发展历史

Hadoop创始人Doug Cutting
(1) Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它是供了全文检索引擎的架构，包括完整的查询弓|擎和索引引擎。
(2) 200 I年年底Lucene成为Apache基金会的一个子项目。
(3)对于海量数据的场景，Lucene 面对与Google同样的困难，存储数据困难,检索速度慢。
(4)学习和模仿Google解决这些问题的办法:微型版Nutch。
(5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS –>HDFS
Map- Reduce–>MR .
BigTable –>HBase
(6) 2003-2004年, Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
(7) 2005 年Hadoop作为Lncene的子项目Nutch的一部分正式引|入Apache基金会。
(8) 2006 年3月份，Map-Reduce和Nutch Distributed File System (NDFS )分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临。
(9)名字来源于Doug Cutting儿子的玩具大象

2.3 Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。
Apache版本最原始（最基础）的版本，对于入门学习最好。
Cloudera在大型互联网企业中用的较多。
Hortonworks文档较好。
Apache Hadoop
官网地址：http://hadoop.apache.org/releases.html
下载地址：https://archive.apache.org/dist/hadoop/common/
Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/
Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform

2.4 Hadoop的优势（4高）

(1)高可靠性: Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
(2)高扩展性:在集群间分配任务数据，可方便的扩展数以干计的节点。
(3)高效性:在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
(4)高容错性:能够自动将失败的任务重新分配。

2.5 Hadoop组成（重点）

yet another resource negotiator 简称YARN，另一个资源协调者，是Hadoop的资源管理器
YARN架构概述
ResourceManager(RM)：整个集群资源（内存、CPU）的老大
NodeManager(NM)：单个节点服务器资源老大
ApplicationMaaster(AM)：单个任务运行的老大
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等
说明
客户端可以有多个
集群上可以运行多个ApplicationMaster
每个NodeManager上可以有多个Container

2.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce，如图2-25所示
(1）Map阶段并行处理输入数据
(2）Reduce阶段对Map结果进行汇总

2.6 大数据技术生态体系

来源：hannah2sah

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

大数据Hadoop3.X 第一、二章

第1章 大数据概论

1.1 大数据概念

1.2大数据特点（4V）

1.3 大数据应用场景

1.4 大数据发展前景

1.5 大数据部门业务流程分析

第2章 从Hadoop框架讨论大数据生态

2.1 Hadoop是什么

2.2 Hadoop发展历史

2.3 Hadoop三大发行版本

2.4 Hadoop的优势（4高）

2.5 Hadoop组成（重点）

2.5.3 MapReduce架构概述

2.6 大数据技术生态体系

相关推荐

第1章大数据概论

第2章从Hadoop框架讨论大数据生态