Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!

Hbase框架原理和开发指导-基础篇 PDF 下载


分享到:
时间:2020-04-27 19:38来源:http://www.java1234.com 作者:小锋  侵权举报
Hbase框架原理和开发指导-基础篇 PDF 下载
失效链接处理
Hbase框架原理和开发指导-基础篇 PDF 下载

 
本站整理下载:
 
相关截图:
 
主要内容:

1.HbaseHBase 的发展历程
HBase 是对 Google 的 Bigtable 的开源实现。
 
2006 年 11 月,Google 公司发表了论文 Bigtable: A Distributed Storage System for Structured Data,但是源码没有对外开放。
2007 年 2 月,项目发起人根据 Bigtable 的技术论文提出了作为 Hadoop 模块的 HBase 原型,该原型介绍了 HBase 的基本概念,以及数据库表、行键和底层数据存储结构的设计等。由于 HBase 依赖 HDFS,它的版本发布都与 Hadoop 同步。
2007 年 10 月,第一个可用的 HBase 版本随同 Hadoop 0.15.0 版本发布,此版本只实现了最基本的模块和功能,因为处于初始开发阶段, HBase 功能还不够完善。
2008 年 1 月,Hadoop 升级为 Apache 的顶级项目,HBase 也作为 Hadoop 的子项目存在。其后 HBase 的发展非常活跃,两年间追随 Hadoop 的主版本发布了多个版本。
2010 年 6 月发布 0.89.x 版本后不再与 Hadoop 发布关联,因为 Hadoop 的版本相对比较成熟,更新步伐减慢,而 HBase 处于活跃期,版本发布更加频繁。
2015 年 2 月发布了足够成熟的 HBase 1.0.0 版本。
 
Apache 社区已经停止了 0.96、1.0、0.94、0.98、1.1 这些版本的使用,且目前已经发布了 1.3、1.4 版本,甚至 2.0 的测试版。但我们不建议使用非稳定的版本,目前稳定的版本是 1.2.6,支持的 Hadoop 版本有 Hadoop 2.4.x、Hadoop 2.5.x、 Hadoop 2.6.1+ 和 Hadoop 2.7.1+
稳定在什么地方?
Apache Hadoop--》版本比较乱。兼容性差。--》Hbase,Hive等基于hadoop的技术框架的兼容性。
1.兼容的Hadoop版本比较多。
 
2.Hbase简介
2.1基本概念
官方网站:http://hbase.apache.org/
官方描述:
Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.
Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.
 
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的开源分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase---》存储数据。
HDFS--》存数据,存文件。数据仓库。
2.2 Hbase的特点
容量巨大
HBase 的单表可以有百亿行、百万列,可以在横向和纵向两个维度插入数据,具有很大的弹性。
关系xing数据库:oracle,mysql
业务数据--》当前表-》历史表。
 
当关系型数据库的单个表的记录在亿级时,查询和写入的性能都会呈现指数级下降,这种庞大的数据量对传统数据库来说是一种灾难,而 HBase 在限定某个列的情况下对于单表存储百亿甚至更多的数据都没有性能问题。
 
HBase 采用 LSM 树作为内部数据存储结构,这种结构会周期性地将较小文件合并成大文件,以减少对磁盘的访问。
LSM的原理:将对数据的修改增量保存在内存中,达到指定大小限制之后批量把数据flush到磁盘中,磁盘中树定期可以做merge操作,合并成一棵大树,以优化读性能。不过读取的时候稍微麻烦一些,读取时看这些数据在内存中,如果未能命中内存,则需要访问较多的磁盘文件。极端的说,基于LSM树实现的hbase写性能比mysql高了一个数量级,读性能却低了一个数量级。
将数据先放到内存,--》达到一定的大小以后,再往磁盘里刷。
数据--》丢内存--》在磁盘中怎么样存储过程,
Hbase不关系数据关系。没有任何数据关系的校验。
读取--》先去内存中查询--》再去磁盘找。
 
bigTable-->存储页面数据。---》爬页面--》bigtable
Hbase--》数据类型
列存储--》核心思想--》数据模型,数据处理方式
与很多面向行存储的关系型数据库不同,HBase 是面向列的存储和权限控制的,它里面的每个列是单独存储的,且支持基于列的独立检索。通过下图的例子来看行存储与列存储的区别。

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐