Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群25
Java1234官方群25:838462530
     

GIT视频教程(结合github,码云)免费领取

BAT一线大厂笔试面试打包下载

java1234.vip企业级站点全新上线(可以领取站点源码)

SpringBoot打造企业级进销存

Java1234 VIP课程

领取微信扫码登录Java实现视频教程

Java1234至尊VIP(特价活动)
当前位置: 主页 > Java文档 > 大数据云计算 >

Hadoop技术选型分析报告 PDF 下载


分享到:
时间:2020-05-26 20:39来源:http://www.java1234.com 作者:小锋  侵权举报
Hadoop技术选型分析报告 PDF 下载
失效链接处理
Hadoop技术选型分析报告 PDF 下载

 
本站整理下载:
 
相关截图:
 
主要内容:

一、概述 
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在
不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高
速 运 算 和 存 储 。 Hadoop 实现了一个 分 布 式 文 件 系 统
(HadoopDistributedFileSystem),简称 HDFS。HDFS 有高容错性的特点,并且
设 计 用 来 部 署 在 低 廉 的 ( low-cost ) 硬 件 上 ; 而 且 它 提 供 高 吞 吐 量
(highthroughput)来访问应用程序的数据,适合那些有着超大数据集
(largedataset)的应用程序。HDFS 放宽了(relax)POSIX 的要求,可以以流
的形式访问(streamingaccess)文件系统中的数据。Hadoop 的框架最核心的设
计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则
为海量的数据提供了计算。
二、选型基本原则 
根据市场上目前比较流行的几款 Hadoop 产品综合分析,从部署的便捷性、
功能、性能及成本等方面综合考量,推荐使用 CDH 与 HDP。然后再根据我们具体
的使用场景来进行选择,如果我们追求功能全面与部署案例参考推荐使用 CDH,
因为 CDH 目前是市场上功能最全、部署案例最多的一款产品,如果我们追求部署
快捷,易上手使用推荐使用 HDP,因为 HDP 是迄今为止 100%纯开源 ApacheHadoop
的唯一提供商并且是第一家使用了 ApacheHCatalog 的元数据服务特性的提供商。
并且,它们的 Stinger 开创性地极大地优化了 Hive 项目。Hortonworks 为入门
提供了一个非常好的,易于使用的沙盒。
接下来我们的分析就主要围绕 CDH 与 HDP 展开。 三、核心概念(Hadoop 生态系统组件释义) 
现在先让我们了解一下 Hadoop 生态系统的构成,主要认识 Hadoop 生态系统
都包括那些子项目,每个项目都有什么特点,每个项目都能解决哪一类问题,能
回答这三个问题就可以了(本段属于热身...重在理解 Hadoop 生态系统组成,现
状,发展,将来)。
HDFS:
HDFS(HadoopDistributedFileSystem,Hadoop 分布式文件系统)是 Hadoop
体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,
用于在低成本的通用硬件上运行。HDFS 简化了文件的一致性模型,通过流式数
据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
MapReduce: 
MapReduce 是一种计算模型,用以进行大数据量的计算。Hadoop 的 MapReduce
实现,和 Common、HDFS 一起,构成了 Hadoop 发展初期的三个组件。MapReduce
将应用划分为 Map 和 Reduce 两个步骤,其中 Map 对数据集上的独立元素进行指
定的操作,生成键-值对形式中间结果。Reduce 则对中间结果中相同“键”的所
有“值”进行规约,以得到最终结果。MapReduce 这样的功能划分,非常适合在
大量计算机组成的分布式并行环境里进行数据处理。
HBase 
HBase 是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列
的动态模式数据库。和传统关系数据库不同,HBase 采用了 BigTable 的数据模
型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时
间戳构成。HBase 提供了对大规模数据的随机、实时读写访问,同时,HBase 中
保存的数据可以使用 MapReduce 来处理,它将数据存储和并行计算完美地结合在
一起。
Hive 
Hive是Hadoop中的一个重要子项目,最早由Facebook设计,是建立在Hadoop
基础上的数据仓库架构,它为数据仓库的管理提供了许多功能,包括:数据 ETL
(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。Hive
提供的是一种结构化数据的机制,定义了类似于传统关系数据库中的类 SQL 语 言:HiveQL,通过该查询语言,数据分析人员可以很方便地运行数据分析业务(将
SQL 转化为 MapReduce 任务在 Hadoop 上执行)。
Pig 
Pig 运行在 Hadoop 上,是对大型数据集进行分析和评估的平台。它简化了使
用 Hadoop 进行数据分析的要求,提供了一个高层次的、面向领域的抽象语言:
PigLatin。通过 PigLatin,数据工程师可以将复杂且相互关联的数据分析任务
编码为 Pig 操作上的数据流脚本,通过将该脚本转换为 MapReduce 任务链,在
Hadoop 上执行。和 Hive 一样,Pig 降低了对大型数据集进行分析和评估的门槛。

 

------分隔线----------------------------
锋哥公众号


锋哥微信号


关注公众号
回复 666
获取 java
从菜鸡到大神
全套视频教程