文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

怎么解析spark的宽窄依赖和持久化

2023-06-02 13:00

关注

本篇文章为大家展示了怎么解析spark的宽窄依赖和持久化,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

一.持久化官网

1.官网位置截图

怎么解析spark的宽窄依赖和持久化

2.cache 源码

cache底层调用的是persisit  ,默认参数是StorageLevel.MEMORY_ONLYcache 用完最好手动干掉

怎么解析spark的宽窄依赖和持久化

3.StorageLevel源码

怎么解析spark的宽窄依赖和持久化

4.StorageLevel 解释

是否使用磁盘是否使用内存不管反序列化副本

5.persisit 可以传的参数

怎么解析spark的宽窄依赖和持久化

6.官网:怎么选择缓存?

怎么解析spark的宽窄依赖和持久化

7.上图解释

选择默认第一种MEMORY_ONLY 内存不够选怎序列化磁盘最好别选择不要用这个副本形式耗内存缓存选择:Spark’s storage levels are meant to provide different trade-offs (权衡)between memory usage and CPU efficiency.We recommend going through the following process to select one: 选择方式    优先级从上到下    优先选择第一个MEMORY_ONLY ,内存实在不够就序列化    If your RDDs fit comfortably with the default storage level (MEMORY_ONLY), leave them that way 默认可以搞定就用默认的. This is the most CPU-efficient option, allowing operations on the RDDs to run as fast as possible.    不要选择java的序列化    If not, try using MEMORY_ONLY_SER and selecting a fast serialization library to make the objects much more space-efficient 空间很好, but still reasonably fast to access. (Java and Scala)    Don’t spill to disk 不要放到磁盘 unless the functions that computed your datasets are expensive, or they filter a large amount of the data. Otherwise, recomputing a partition may be as fast as reading it from disk.

二.宽窄依赖,血缘关系

1.总结

宽依赖用shufer宽窄依赖容错程度不一样一个shuffer产生两个stage,两个产生三个stage等等Lineage 血缘关系  用于容错很多都是记录的textfile =》 xx => yy描述的是一个RDD如何从父RDD过来的RDD作用一个函数就是对RDD里面的分区作用一个函数丢失了根据父RDD重新算一下dependence    宽依赖:一个父RDD的partition至多被子RDD的某个partition使用一次   没shuffer    pipline     丢一个就直接拿出来计算就可以    窄依赖:一个父RDD的parttiton会被子RDD的partitio使用多次    有shuffer    宽依赖挂掉了要从父RDD全部计算    有的时候解决数据倾斜需要shuffer    他们容错程度不一样的    有shuffer就会生成stage总结:老子被儿子用几次,多个孩子(宽)或单个孩子(窄)

2.driver

driver  就是main方法 中创建sparkcontextaction 产生job  ,shuffer 产生stage  ,stage 里是task

上述内容就是怎么解析spark的宽窄依赖和持久化,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注编程网行业资讯频道。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯