Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

大数据学习总结文档 PDF 下载


分享到:
时间:2021-03-04 09:58来源:http://www.java1234.com 作者:转载  侵权举报
大数据学习总结文档 PDF 下载
失效链接处理
大数据学习总结文档  PDF 下载


本站整理下载:
提取码:bavy 
 
 
相关截图:
 
主要内容:

2.1HDFS是什么
分布式文件存储系统HDFS(Hadoop Distributed File System)主要解决大数据的存储问题。
HDFS的应用已经非常成熟非常多,如百度网盘、360云盘、腾讯微云、阿里云。
 
2.2HDFS的优缺点()
2.2.1优点 
分布式的特性:
①适合大数据处理:GB、TB、甚至PB级别以上的数据
②百万规模以上的文件数量:10K+节点
③适合批处理:移动计算而非数据(MapReduce),数据位置暴露给计算框架
自身特性:
①可构建在廉价的机器上
②高可靠性:通过多副本提高
③高容错性:数据自动保存多个副本,副本丢失后,自动恢复,提供了恢复机制
 
2.2.2缺点
①低延迟高数据吞吐访问问题:比如不支持毫秒级,吞吐量大但有限制于其延迟(服务器 网络延迟、磁盘延迟)
②小文件存取占用NameNode大量内存(寻到时间超过读取时间99%)
③不支持文件修改(默认):一个文件只能有一个写者。仅支持append不支持修改(其实本身是支持的,太麻烦,主要为了空间换时间,节约成本)
 
2.3HDFS架构图(1.0)()
 
 
2.4HDFS的功能模块及原理详解()
2.4.1HDFS数据存储单元(block)
文件被线性切分成固定大小的数据块block:
·通过偏移量offset(单位:byte)标记
·默认数据块大小为64mb(hadoop1.0),可自定义设置(hadoop2.0默认128mb)
·若文件大小不到64mb,则单独存为一个block
 
一个文件的存储方式:
·切分成若干个block,存储到不同节点上
·默认每个block都有2个副本,共3个副本
·副本数不大于节点数
 
Block大小和副本数通过client端上传文件时设置,文件上传成功后副本数可以变更,block size大小不可变更。

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐