Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

大数据期末复习总结 PDF 下载


分享到:
时间:2020-07-10 14:23来源:http://www.java1234.com 作者:小锋  侵权举报
大数据期末复习总结 PDF 下载
失效链接处理
大数据期末复习总结 PDF 下载

本站整理下载:
 
相关截图:
 
主要内容:


客观题
(1)Hadoop基础,如:⽣态环境、历史等
(2)HDFS、YARN、HBase、MapReduce基本架构和原理
(3)HDFS命令、HBase命令
(4)实验操作
(5)常⻅故障排查(只包含集群安装、运⾏故障,不包含⽹络配置故障和虚拟机本⾝故障)
(6)HDFS Java API、HBase Java API、MapReduce编程
Hadoop基础
Hadoop历史
2004年,Google发表论⽂《MapReduce:超⼤集群的简单数据处理》
2006年Google发表论⽂《BigTable:结构化数据的分布式存储系统》
2006年,Yahoo!聘请Cutting将Nutch搜索引擎中的存储和处理部分抽象成为Hadoop,Hadoop 以⼀ 种可靠、⾼效、可伸缩的⽅式进⾏数据处理,逐渐成为⾏业主流。
Hadoop⽣态系统
HDFS:分布式存储,为整个Hadoop系统提供数据存储功能
MapReduce:并⾏计算框架
HBase:构建在HDFS上的NoSQL数据库
Zookeeper:Hadoop组件管理端
Oozie:可扩展的Workflow系统,协调多个MapReduce作业执⾏
Pig:包含Pig Latin,对MapReduce的抽象
Hive:将结构化的数据⽂件映射为数据表,提供SQL语句,将SQL翻译为MapReduce语句进⾏查询
HDFS架构:
Hadoop三⼤基本组件:
HDFS——分布式⽂件系统,⽤于数据存储 YARN——统⼀资源管理和调度系统,⽤于管理集群的计算资源并根据计算框架的需求进⾏调度,⽀持 包含MapReduce、Spark、Flink多种计算框架MRv2(Hadoop 2.x)之后的新特性
MapReduce——分布式计算框架,运⾏于YARN之上
HDFS/Hadoop Distributed File System
 是Hadoop的分布式⽂件系统的实现。它的设计⽬标是存储海量的数据,并为分布在⽹络中的⼤量客 ⼾端提供数据访问。
 HDFS是⾼容错性的,可以部署在低成本的硬件之上,HDFS提供⾼吞吐量地对应⽤程序数据访问。
HDFS特性 能够保存PB级的数据量,将数据散布在⼤量的计算机(节点)上,⽀持更⼤的⽂件 使⽤数据备份的⽅法解决⽂件存储的可靠性,如果集群中单个节点故障则启⽤备份 很好的与Map-Reduce集成,为减小计算时的数据交互,HDFS允许数据在本地计算
HDFS局限性
针对⾼速流式读取进⾏优化,查询性能低下(可利⽤Hive查询) ⼀次写⼊多次读取,不⽀持并发写⼊,并发读取性能很⾼ 不⽀持⽂件修改 不⽀持缓存,每次读取⽂件须从硬盘上重新读取,当然对于⼤⽂件顺序读取性能影响不⼤ 不适合存储小⽂件
HDFS架构 主从模式 整个Hadoop被构建在集群上,集群由各个节点(Node)构成 将集群中的节点分为NameNode(管理者)和DataNode(⼯作者) ⽂件被拆分为多个Block(块)放到不同的DataNode中,每个块默认64MB,同⼀个块会备份到多个
DataNode中存储
Namenode
HDFS为主从架构,⽂件分块存储在DataNode,并由NameNode实现管理 使⽤NameNode存储元数据信息,保存⽂件名以及⽂件的块(Block)存储在哪些DataNode中 每个存活的DataNode定时向NameNode发送⼼跳信息,如果未收到DataNode的⼼跳,NameNode将 认定其已失效,不再向其派发任何⽂件读请求;NameNode会将失效的DataNode中的块(Block)备份到 其他存活的DataNode中
Namenode的元数据管理机制 整个系统的元数据都保存在NameNode中 内存元数据:meta data,⽤于元数据查询 硬盘元数据镜像⽂件:fsimage,持久化存储元数据 数据操作⽇志:edits,HDFS⽂件增删会造成元数据更改,将更改记录到edits,可运算出元数据
NameNode元数据管理过程
 1、系统启动时,读取fsimage和edits⾄内存,形成内存元数据meta data
 2、client向NameNode发起数据增删查请求
 3、NameNode接收到请求后,在内存元数据中执⾏增删查操作,并向client返回操作结果
 4、如果是增删操作,则同时记录数据操作⽇志edits
 5、使⽤Secondary NameNode,在适当的时机将操作⽇志合并到fsimage中(CheckPoint过程)
HDFS数据写⼊机制
1.⽤⼾客⼾端请求Hadoop客⼾端,并执⾏⽂件上传
2.上传的⽂件写⼊到Hadoop客⼾端的临时⽬录中,每当写⼊的数据量越过块(block)边界时(hadoop 1.x
缺省64mb,hadoop2.x缺省128mb),请求NameNode申请数据块
3.NameNode向Hadoop客⼾端返回block的位置
4.Hadoop客⼾端直接将block写⼊指定的DataNode
HDFS数据读取机制
1.⽤⼾客⼾端请求Hadoop客⼾端,请求返回指定⽂件
2.Hadoop客⼾端向NameNode发起读⽂件请求
3.NameNode查询meta data并返回⽂件对应的block位置
4.Hadoop客⼾端直接向DataNode请求block数据,获取到所有block后合并成⽂件
Hadoop配置⽂件
core-site.xml 
Hadoop系统的通⽤关键属性
hdfs-site.xml
HDFS属性配置
mapred-site.xml
MapReduce计算框架的属性配置
yarn-site.xml
YARN基本属性
workers
定义所有DataNode地址
core-site.xml
hdfs-site.xml
<configuration> <property> <name>fs.defaultFS</name> <!--HDFS服务地址--> <value>hdfs://192.168.0.182:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <!--Hadoop临时⽬录--> <value>file:/home/hadoop/tmp</value> </property> <property> <name>io.file.buffer.size</name> <!--缓冲Ÿ⼤⼩--> <value>131702</value> </property> </configuration> <configuration> <property> <name>dfs.namenode.name.dir</name> <!-- namenode的元f据⽬录--> <value>file:/home/hadoop/dfs/name</value><!--⽤õǞ开设IiC储⽬录--> </property> <property> <name>dfs.datanode.data.dir</name <!-- datanode的blockf据⽬录- -> <value>file:/home/hadoop/dfs/data</value><!--⽤õǞ开设IiC储⽬录--> </property> <property> <name>dfs.replication</name> <!--iblock保C的副hf量--> <value>3</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.0.182:9001</value> <!--secondary namenode地 址--></property> </configuration> dfs.http.address HDFS的Web服务地址,显⽰HDFS服务状态和⽇® èf值¥IP地址:50070

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐