Hadoop高手之路1—Hadoop简介

文章目录

  • 初识Hadoop
    • 1.大数据概述
      • 1.1什么是大数据
      • 1.2大数据的特征
      • 1.3研究大数据的意义
    • 2.大数据的应用场景
      • 2.1医疗行业的应用
      • 2.2金融行业的应用
      • 2.3零售行业的应用
    • 3.Hadoop的概述
      • 3.1Hadoop的前世今生
      • 3.2Hadoop的优势
      • 3.3Hadoop的生态体系
      • 3.4Hadoop的版本

image-20221020152201585

1.3研究大数据的意义

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流也越来越密切,生活也越来越便捷,然而大数据就是这个高科技时代的产物。阿里巴巴的创办人马云曾经说过,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,这显示出大数据对于阿里巴巴集团来说是举足轻重的。

**有人把数据比喻为蕴藏能量的煤矿。**煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在于“大”,而在于“有用”。数据的价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据,发掘其潜在价值,才是赢得核心竞争力的关键。

**研究大数据,最重要的意义是预测。**因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是我们可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。知名互联网公司谷歌对其用户每天频繁搜索的词汇进行数据挖掘,从而进行相关的广告推广和商业研究。

2.大数据的应用场景

2.1医疗行业的应用

大数据让就医、看病更简单。随着大数据在医疗行业的深度融合,大数据平台积累了海量的病例、病例报告、治愈方案、药物报告等信息资源,所有常见的病例、既往病例等都记录在案,医生通过有效、连续的诊疗记录,给病人提供优质、合理的诊疗方案。

  1. 优化医疗方案,提供最佳治疗方法

借助于大数据平台,可以搜集不同病人的疾病特征、病例和治疗方案,从而建立医疗行业的病人分类数据库。在医生诊断病人时可以参考病人的疾病特征、化验报告和检测报告,参考疾病数据库来快速帮助病人确诊。在制定治疗方案时,医生可以依据病人的基因特点,调取相似基因、年龄、人种、身体情况相同的有效治疗方案,制定出适合病人的治疗方案,帮助更多人及时进行治疗。

  1. 有效预防预测疾病

解决患者的疾病,最为简单的方式就是防患于未然。通过大数据对于群众的人体数据监控,将各自的健康数据、生命体征指标都集合在数据库和健康档案中。群众需要定期去做检查,及时更新数据,以便于通过大数据来预防和预测疾病的发生,做到早治疗、早康复

2.2金融行业的应用

  1. 精准营销

互联网时代的银行在互联网的冲击下,迫切的需要掌握更多用户信息,继而构建用户360度立体画像,即可对细分的客户进行精准营销、实时营销等个性化智慧营销

  1. 风险管控

应用大数据平台,可以统一管理金融企业内部多源异构数据和外部征信数据,更好的完善风控体系。内部可保证数据的完整性与,外部可控制用户风险

  1. 决策支持

通过大数据分析方法改善经营决策,为管理层提供可靠的数据支撑,从而使经营决策更高效、敏捷、精准 。

  1. 服务创新

通过对大数据的应用,改善与客户之间的交互、增加用户粘性,为个人与政府提供增值服务,不断增强金融企业业务核心竞争力。

  1. 产品创新

通过高端数据分析和综合化数据分享,有效对接银行、保险、信托、基金等金融产品,使金融企业能够从其他领域借鉴并创造新的金融产品。

2.3零售行业的应用

image-20221020153636216
  • 2003-2005:Nutch的创始人Doug Cutting受到启发,实现了DFS和MapReduce机制。Hadoop作为Nutch的一部分被引入Apache基金会,随后又从Nutch中剥离,成为一套完整独立的软件,起名为Hadoop。
  • 2006-2009:Hadoop成为Apache顶级项目。Hive、MapReduce、HDFS、Avro以 及Chukwa成为Hadoop的子项目。
  • 2010-2011:Avro、HBase、Hive、Pig、ZooKeeper陆续脱离Hadoop,成为Apache顶级项目。Hadoop1.0.0版本发布,标志着Hadoop已经初具生产规模。
  • 2012-2013:Hadoop 2.0.0-alpha版本发布、Impala加入Hadoop生态圈、Hadoop2.0.0版本发布
  • 2014-2017:Spark成为Apache顶级项目Hadoop3.0.0版本发布。

3.2Hadoop的优势

扩容能力强

成本低

高效率

可靠性

高容错性

3.3Hadoop的生态体系

随着Hadoop的不断发展,Hadoop生态体系越来越完善,现如今已经发展成一个庞大的生态体系。

image-20221020154754976

/p>

来源:W_chuanqi

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年9月22日
下一篇 2022年9月22日

相关推荐