Hadoop技术选型分析报告 PDF 下载_Java知识分享网-免费Java资源下载

失效链接处理

Hadoop技术选型分析报告 PDF 下载

本站整理下载：

链接：https://pan.baidu.com/s/1G494SCOSrRXoi2qVd0CD1A

提取码：y4ih

相关截图：

主要内容：

一、概述

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在

不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高

速运算和存储。 Hadoop 实现了一个分布式文件系统

（HadoopDistributedFileSystem），简称 HDFS。HDFS 有高容错性的特点，并且

设计用来部署在低廉的（ low-cost ）硬件上；而且它提供高吞吐量

（highthroughput）来访问应用程序的数据，适合那些有着超大数据集

（largedataset）的应用程序。HDFS 放宽了（relax）POSIX 的要求，可以以流

的形式访问（streamingaccess）文件系统中的数据。Hadoop 的框架最核心的设

计就是：HDFS 和 MapReduce。HDFS 为海量的数据提供了存储，而 MapReduce 则

为海量的数据提供了计算。

二、选型基本原则

根据市场上目前比较流行的几款 Hadoop 产品综合分析，从部署的便捷性、

功能、性能及成本等方面综合考量，推荐使用 CDH 与 HDP。然后再根据我们具体

的使用场景来进行选择，如果我们追求功能全面与部署案例参考推荐使用 CDH，

因为 CDH 目前是市场上功能最全、部署案例最多的一款产品，如果我们追求部署

快捷，易上手使用推荐使用 HDP，因为 HDP 是迄今为止 100%纯开源 ApacheHadoop

的唯一提供商并且是第一家使用了 ApacheHCatalog 的元数据服务特性的提供商。

并且，它们的 Stinger 开创性地极大地优化了 Hive 项目。Hortonworks 为入门

提供了一个非常好的，易于使用的沙盒。

接下来我们的分析就主要围绕 CDH 与 HDP 展开。三、核心概念（Hadoop 生态系统组件释义）

现在先让我们了解一下 Hadoop 生态系统的构成，主要认识 Hadoop 生态系统

都包括那些子项目，每个项目都有什么特点，每个项目都能解决哪一类问题，能

回答这三个问题就可以了（本段属于热身...重在理解 Hadoop 生态系统组成，现

状，发展，将来）。

HDFS：

HDFS（HadoopDistributedFileSystem，Hadoop 分布式文件系统）是 Hadoop

体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，

用于在低成本的通用硬件上运行。HDFS 简化了文件的一致性模型，通过流式数

据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

MapReduce：

MapReduce 是一种计算模型，用以进行大数据量的计算。Hadoop 的 MapReduce

实现，和 Common、HDFS 一起，构成了 Hadoop 发展初期的三个组件。MapReduce

将应用划分为 Map 和 Reduce 两个步骤，其中 Map 对数据集上的独立元素进行指

定的操作，生成键-值对形式中间结果。Reduce 则对中间结果中相同“键”的所

有“值”进行规约，以得到最终结果。MapReduce 这样的功能划分，非常适合在

大量计算机组成的分布式并行环境里进行数据处理。

HBase

HBase 是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列

的动态模式数据库。和传统关系数据库不同，HBase 采用了 BigTable 的数据模

型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时

间戳构成。HBase 提供了对大规模数据的随机、实时读写访问，同时，HBase 中

保存的数据可以使用 MapReduce 来处理，它将数据存储和并行计算完美地结合在

一起。

Hive

Hive是Hadoop中的一个重要子项目，最早由Facebook设计，是建立在Hadoop

基础上的数据仓库架构，它为数据仓库的管理提供了许多功能，包括：数据 ETL

（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。Hive

提供的是一种结构化数据的机制，定义了类似于传统关系数据库中的类 SQL 语言：HiveQL，通过该查询语言，数据分析人员可以很方便地运行数据分析业务（将

SQL 转化为 MapReduce 任务在 Hadoop 上执行）。

Pig

Pig 运行在 Hadoop 上，是对大型数据集进行分析和评估的平台。它简化了使

用 Hadoop 进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：

PigLatin。通过 PigLatin，数据工程师可以将复杂且相互关联的数据分析任务

编码为 Pig 操作上的数据流脚本，通过将该脚本转换为 MapReduce 任务链，在

Hadoop 上执行。和 Hive 一样，Pig 降低了对大型数据集进行分析和评估的门槛。

IDEA永久激活

Java微信小程序电商实战课程(SpringBoot+VUe)

AI人工智能学习大礼包

PyCharm永久激活

66套java实战课程无套路领取

Cursor+Claude AI编程 1天快速上手视频教程

Hadoop技术选型分析报告 PDF 下载