Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档

作者 : admin 本文共1123个字,预计阅读时间需要3分钟 发布时间: 2024-04-17 共1人阅读

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图(1)
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图(2)
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图(3)
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图(4)

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档插图(5)

正文

    • 3.1 了解stage
      • 3.2 关于stage我们需要知道的小知识
        • 3.2.1 有的stage名叫Listing leaf files and directories for xxx paths
          • 3.2.2 有的stage会显示xxtask failed,代表什么意思呢,为什么task失败stage不会失败呢
          • 3.2.3 为什么一般spill disk要小于spill memory
          • 3.2.4 为什么要序列化
          • 3.2.5 为什么tasks中有些 index 相同
          • 3.2.6 为什么Spill (memory)/(disk)大量溢出,怎么优化
  • 四、Storage
    • 4.1 了解Storage
      • 4.2 关于stage我们需要知道的小知识
        • 4.2.1 StorageLevel都有哪些
          • 4.2.2 ache table有什么用,和broadcast有什么关系或者区别吗
  • 五、Environment
    • 5.1 了解environment
      • 5.2 常用参数
        • 5.2.1 executor申请&并行度
          • 5.2.2 内存分配
          • 5.2.3 文件输入输出与合并
          • 5.2.4 mapjoin
          • 5.2.5 shuffle阶段
          • 5.2.6 推测执行
          • 5.2.7 谓词下推
  • 六、Executors
    • 6.1 了解 executors
      • 6.2 关于 executors 我们需要知道的小知识
        • 6.2.1 executor和driver到底是什么东西?
          • 6.2.2 2.storage memory中的总内存数代表什么意思
  • 七、SQL
    • 7.1 了解 sql
      • 7.2 关于 sql 我们需要知道的小知识
        • 7.2.1 可以判断join的方式,是SortMergeJoin还是broadcast join
          • 7.2.2 判断各类操作下,有没有数据和时间倾斜
          • 7.2.3 怀疑有数据膨胀时,可以定位分析
          • 7.2.4 检查分区过滤条件是否生效
  • 八、Debug
  • 九、Streming

前言

  • 日常工作中经常用到sparkui来排查一些问题,有些东西需要经常搜索,网上的文章有写的很棒的,也有写的一言难尽的,这里参考了其他大佬的文章
本站无任何商业行为
个人在线分享 » Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档
E-->