Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!

企业数据湖 PDF 下载


分享到:
时间:2019-03-17 14:24来源:https://download.csdn.net/ 作者:转载  侵权举报
企业数据湖 PDF 下载
失效链接处理
企业数据湖 PDF 下载

转载自:https://download.csdn.net/download/miles_cmg/10867027
 
本站整理下载:
版权归出版社和作者所有,链接已删除,请购买正版
 
用户下载说明:
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
http://product.dangdang.com/26445936.html
  
相关截图:


资料目录:
本书分为三个主要部分。*部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的*新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的*后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。
·使用大数据技术构建企业级数据湖。
·掌握Lambda架构的精髓,以及如何在企业内使用它。
·学习与Apache Sqoop及其功能相关的技术细节。
·Kafka与Hadoop组件集成,用于获取企业数据。
·使用Flume进行流式数据处理。
·理解Flink与流式数据处理的关系。


资料简介:
译者序
推荐序
关于作者
关于技术审核人员
前言
第一部分 概述
第1章 数据导论 2
1.1 探索数据 3
1.2 什么是企业数据 4
1.3 企业数据管理 5
1.4 大数据相关概念 6
1.5 数据与企业的相关性 8
1.6 数据质量 9
1.7 企业中数据如何存放 10
1.7.1 内联网(企业内部) 10
1.7.2 互联网(企业外部) 10
1.7.3 数据持久化存储(RDBMS或者NoSQL) 12
1.7.4 传统的数据仓库 13
1.7.5 文件存储 13
1.8 企业现状 14
1.9 企业数字化转型 15
1.10 数据湖用例启示 16
1.11 总结 17
第2章 数据湖概念概览 18
2.1 什么是数据湖 18
2.2 数据湖如何帮助企业 19
2.3 数据湖是如何工作的 20
2.4 数据湖与数据仓库的区别 21
2.5 数据湖的构建方法 22
2.6 Lambda架构驱动的数据湖 22
2.6.1 数据摄取层——摄取数据用于处理和存储 23
2.6.2 批处理层——批量处理已提取数据 23
2.6.3 快速处理层——近实时数据处理 24
2.6.4 数据存储层——存储所有数据 24
2.6.5 服务层——数据交付与导出 25
2.6.6 数据获取层——从源系统获取数据 25
2.6.7 消息层——数据传输的保障 26
2.6.8 探索数据摄取层 27
2.6.9 探索Lambda层 28
2.7 总结 35
第3章 Lambda架构:一种数据湖
实现模式 36
3.1 什么是Lambda架构 36
3.2 Lambda 架构简史 37
3.3 Lambda架构的原则 37
3.3.1 容错原则 38
3.3.2 不可变数据原则 38
3.3.3 重新计算原则 38
3.4 Lambda架构的组件 38
3.4.1 批处理层 39
3.4.2 快速处理层 41
3.4.3 服务层 43
3.5 Lambda架构的完整工作原理 44
3.6 Lambda架构的优势 45
3.7 Lambda架构的劣势 46
3.8 Lambda架构技术概览 46
3.9 应用Lambda 47
3.9.1 企业级日志分析 47
3.9.2 获取和分析传感器数据 47
3.9.3 电子邮件平台实时统计 48
3.9.4 实时赛事分析 48
3.9.5 推荐引擎 48
3.9.6 安全威胁分析 48
3.9.7 多渠道用户行为分析 48
3.10 Lambda架构运行范例 48
3.11 Kappa架构 49
3.12 总结 50
第4章 数据湖中的Lambda应用 51
4.1 Hadoop发行版本介绍 51
4.2 影响企业大数据技术栈选择的因素 53
4.2.1 技术能力 53
4.2.2 是否易于部署和维护 53
4.2.3 集成准备 53
4.3 批处理层与数据处理 53
4.3.1 NameNode服务器 54
4.3.2 Secondary NameNode服务器 55
4.3.3 YARN 55
4.3.4 数据存储节点 55
4.3.5 快速处理层 56
4.3.6 Flume用于数据获取 57
4.3.7 Spark Streaming 58
4.4 服务层 62
4.4.1 数据存储层 62
4.4.2 数据访问层 63
4.5 总结 64
第二部分 数据湖的技术组件
第5章 基于Apache Sqoop的批量数据获取 68
5.1 数据湖背景中的数据获取 68
5.1.1 数据获取层 68
5.1.2 批量数据获取——技术路线图 69
5.2 为什么使用Apache Sqoop 70
5.2.1 Sqoop简史 71
5.2.2 Sqoop的优势 71
5.2.3 Sqoop的劣势 72
5.3 Sqoop的功能 72
5.3.1 Sqoop 2的架构 74
5.3.2 Sqoop 1与Sqoop 2 75
5.3.3 Sqoop的功能 77
5.3.4 使用Sqoop导入数据 77
5.3.5 使用Sqoop导出数据 78
5.4 Sqoop connector 79
5.5 Sqoop对HDFS的支持 81
5.6 Sqoop运行范例 81
5.6.1 安装与配置 81
5.6.2 数据源配置 90
5.6.3 Sqoop配置(数据库驱动) 91
5.6.4 将HDFS配置为目的地 91
5.6.5 Sqoop数据导入 91
5.6.6 Sqoop数据导出 97
5.6.7 Sqoop job 98
5.6.8 Sqoop 2 99
5.6.9 SCV用例视角中的Sqoop 102
5.7 适合使用Sqoop的场景 103
5.8 不适合使用Sqoop的场景 104
5.9 实时Sqooping是否可行 104
5.10 其他选项 104
5.10.1 原生大数据connector 105
5.10.2 Talend 106
5.10.3 Pentaho Kettle(PDI——Pentaho数据集成) 106
5.11 总结 106
第6章 基于Apache Flume的流式数据获取 108
6.1 数据获取 108
6.1.1 什么是流式数据 109
6.1.2 批量数据和流式数据 110
6.1.3 流式数据获取——技术路线图 110
6.1.4 什么是Flume 111
6.1.5 Sqoop和Flume 112
6.2 为什么使用Flume 113
6.2.1 Flume简史 113
6.2.2 Flume的优势 113
6.2.3 Flume的劣势 114
6.3 Flume的架构原则 114
6.4 Flume架构 115
6.4.1 Flume 架构之一:分布式数据流水线 116
6.4.2 Flume 架构之二:扇出 117
6.4.3 Flume 架构之三:扇入 117
6.4.4 Flume架构中的3层设计 118
6.4.5 高级Flume架构 118
6.4.6 Flume的可靠性级别 120
6.5 Flume事件——流式数据 120
6.6 Flume Agent 120
6.7 Flume Source 122
6.8 Flume Channel 123
6.9 Flume Sink 125
6.10 Flume配置 126
6.11 Flume事务管理 127
6.12 Flume的其他组件 128
6.12.1 Channel Processor 128
6.12.2 Interceptor 129
6.12.3 Channel Selector 129
6.12.4 Sink Group 130
6.12.5 事

 
------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐