大数据期末复习总结 PDF 下载_Java知识分享网-免费Java资源下载

失效链接处理

大数据期末复习总结 PDF 下载

本站整理下载：

链接：https://pan.baidu.com/s/1yJmQom5ahzRSMitvhlSwtg

提取码：ale8

相关截图：

主要内容：

客观题

(1)Hadoop基础，如：⽣态环境、历史等

(2)HDFS、YARN、HBase、MapReduce基本架构和原理

(3)HDFS命令、HBase命令

(4)实验操作

(5)常⻅故障排查(只包含集群安装、运⾏故障，不包含⽹络配置故障和虚拟机本⾝故障)

(6)HDFS Java API、HBase Java API、MapReduce编程

Hadoop基础

Hadoop历史

2004年，Google发表论⽂《MapReduce：超⼤集群的简单数据处理》

2006年Google发表论⽂《BigTable：结构化数据的分布式存储系统》

2006年，Yahoo!聘请Cutting将Nutch搜索引擎中的存储和处理部分抽象成为Hadoop，Hadoop 以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理，逐渐成为⾏业主流。

Hadoop⽣态系统

HDFS：分布式存储，为整个Hadoop系统提供数据存储功能

MapReduce：并⾏计算框架

HBase：构建在HDFS上的NoSQL数据库

Zookeeper：Hadoop组件管理端

Oozie：可扩展的Workflow系统，协调多个MapReduce作业执⾏

Pig：包含Pig Latin，对MapReduce的抽象

Hive：将结构化的数据⽂件映射为数据表，提供SQL语句，将SQL翻译为MapReduce语句进⾏查询

HDFS架构：

Hadoop三⼤基本组件：

HDFS——分布式⽂件系统，⽤于数据存储 YARN——统⼀资源管理和调度系统，⽤于管理集群的计算资源并根据计算框架的需求进⾏调度，⽀持包含MapReduce、Spark、Flink多种计算框架MRv2(Hadoop 2.x)之后的新特性

MapReduce——分布式计算框架，运⾏于YARN之上

HDFS/Hadoop Distributed File System

是Hadoop的分布式⽂件系统的实现。它的设计⽬标是存储海量的数据，并为分布在⽹络中的⼤量客⼾端提供数据访问。

HDFS是⾼容错性的，可以部署在低成本的硬件之上，HDFS提供⾼吞吐量地对应⽤程序数据访问。

HDFS特性能够保存PB级的数据量，将数据散布在⼤量的计算机（节点）上，⽀持更⼤的⽂件使⽤数据备份的⽅法解决⽂件存储的可靠性，如果集群中单个节点故障则启⽤备份很好的与Map-Reduce集成，为减小计算时的数据交互，HDFS允许数据在本地计算

HDFS局限性

针对⾼速流式读取进⾏优化，查询性能低下（可利⽤Hive查询）⼀次写⼊多次读取，不⽀持并发写⼊，并发读取性能很⾼不⽀持⽂件修改不⽀持缓存，每次读取⽂件须从硬盘上重新读取，当然对于⼤⽂件顺序读取性能影响不⼤不适合存储小⽂件

HDFS架构主从模式整个Hadoop被构建在集群上，集群由各个节点（Node）构成将集群中的节点分为NameNode（管理者）和DataNode（⼯作者）⽂件被拆分为多个Block（块）放到不同的DataNode中，每个块默认64MB，同⼀个块会备份到多个

DataNode中存储

Namenode

HDFS为主从架构，⽂件分块存储在DataNode，并由NameNode实现管理使⽤NameNode存储元数据信息，保存⽂件名以及⽂件的块(Block)存储在哪些DataNode中每个存活的DataNode定时向NameNode发送⼼跳信息，如果未收到DataNode的⼼跳，NameNode将认定其已失效，不再向其派发任何⽂件读请求；NameNode会将失效的DataNode中的块(Block)备份到其他存活的DataNode中

Namenode的元数据管理机制整个系统的元数据都保存在NameNode中内存元数据：meta data，⽤于元数据查询硬盘元数据镜像⽂件：fsimage，持久化存储元数据数据操作⽇志：edits，HDFS⽂件增删会造成元数据更改，将更改记录到edits，可运算出元数据

NameNode元数据管理过程

1、系统启动时，读取fsimage和edits⾄内存，形成内存元数据meta data

2、client向NameNode发起数据增删查请求

3、NameNode接收到请求后，在内存元数据中执⾏增删查操作，并向client返回操作结果

4、如果是增删操作，则同时记录数据操作⽇志edits

5、使⽤Secondary NameNode，在适当的时机将操作⽇志合并到fsimage中（CheckPoint过程）

HDFS数据写⼊机制

1.⽤⼾客⼾端请求Hadoop客⼾端，并执⾏⽂件上传

2.上传的⽂件写⼊到Hadoop客⼾端的临时⽬录中，每当写⼊的数据量越过块(block)边界时(hadoop 1.x

缺省64mb，hadoop2.x缺省128mb)，请求NameNode申请数据块

3.NameNode向Hadoop客⼾端返回block的位置

4.Hadoop客⼾端直接将block写⼊指定的DataNode

HDFS数据读取机制

1.⽤⼾客⼾端请求Hadoop客⼾端，请求返回指定⽂件

2.Hadoop客⼾端向NameNode发起读⽂件请求

3.NameNode查询meta data并返回⽂件对应的block位置

4.Hadoop客⼾端直接向DataNode请求block数据，获取到所有block后合并成⽂件

Hadoop配置⽂件

core-site.xml

Hadoop系统的通⽤关键属性

hdfs-site.xml

HDFS属性配置

mapred-site.xml

MapReduce计算框架的属性配置

yarn-site.xml

YARN基本属性

workers

定义所有DataNode地址

core-site.xml

hdfs-site.xml

<configuration> <property> <name>fs.defaultFS</name>  <value>hdfs://192.168.0.182:9000</value> </property> <property> <name>hadoop.tmp.dir</name>  <value>file:/home/hadoop/tmp</value> </property> <property> <name>io.file.buffer.size</name>  <value>131702</value> </property> </configuration> <configuration> <property> <name>dfs.namenode.name.dir</name>  <value>file:/home/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name  </property> <property> <name>dfs.replication</name>  <value>3</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.0.182:9001</value> </property> </configuration> dfs.http.address HDFS的Web服务地址，显⽰HDFS服务状态和⽇® èf值¥IP地址:50070

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦！

Python学习路线图

大数据期末复习总结 PDF 下载

Java1234官方群25：
Java1234官方群25：	838462530