Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

最优化Spark应用的性能 使用低成本的层次化方案加速大数据处理-俞育才 PDF 下载


分享到:
时间:2021-01-23 10:17来源:http://www.java1234.com 作者:转载  侵权举报
最优化Spark应用的性能 使用低成本的层次化方案加速大数据处理-俞育才 PDF 下载
失效链接处理
最优化Spark应用的性能 使用低成本的层次化方案加速大数据处理-俞育才  PDF 下载


 
本站整理下载:
提取码:zbpm 
 
 
相关截图:
 
主要内容:


Software Tuning – Partition
• Tasks number are decided by RDD’s partition number.
• How to choose proper partition number? 
- If there are fewer partition than available cores, the tasks won’t be taking 
advantage of all CPU.
- Fewer partition, bigger data size, it means that more memory pressure 
especially in join, cogroup, *ByKey etc. 
- If the number is too large, more tasks, more iterative, more time.
- Too large also puts more pressure in disk. When shuffle read, it leads to more 
small segment to fetch, especially worse in HDDs. - Set a big number to make application run success, decrease it gradually to 
reach best performance point, pay attention to the GC.
- Sometimes, changing partition number to avoid data incline, checking this info 
from WebUI

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐