Spark–一文了解WebUI_spark web ui,2024年最新已整理成文档
先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
正文
- 3.1 了解stage
- 3.2 关于stage我们需要知道的小知识
- 3.2.1 有的stage名叫
Listing leaf files and directories for xxx paths
- 3.2.2 有的stage会显示xxtask failed,代表什么意思呢,为什么task失败stage不会失败呢
- 3.2.3 为什么一般spill disk要小于spill memory
- 3.2.4 为什么要序列化
- 3.2.5 为什么tasks中有些 index 相同
- 3.2.6 为什么Spill (memory)/(disk)大量溢出,怎么优化
- 3.2.1 有的stage名叫
- 3.1 了解stage
- 四、Storage
- 4.1 了解Storage
- 4.2 关于stage我们需要知道的小知识
- 4.2.1 StorageLevel都有哪些
- 4.2.2 ache table有什么用,和broadcast有什么关系或者区别吗
- 4.2.1 StorageLevel都有哪些
- 4.1 了解Storage
- 五、Environment
- 5.1 了解environment
- 5.2 常用参数
- 5.2.1 executor申请&并行度
- 5.2.2 内存分配
- 5.2.3 文件输入输出与合并
- 5.2.4 mapjoin
- 5.2.5 shuffle阶段
- 5.2.6 推测执行
- 5.2.7 谓词下推
- 5.2.1 executor申请&并行度
- 5.1 了解environment
- 六、Executors
- 6.1 了解 executors
- 6.2 关于 executors 我们需要知道的小知识
- 6.2.1 executor和driver到底是什么东西?
- 6.2.2 2.storage memory中的总内存数代表什么意思
- 6.2.1 executor和driver到底是什么东西?
- 6.1 了解 executors
- 七、SQL
- 7.1 了解 sql
- 7.2 关于 sql 我们需要知道的小知识
- 7.2.1 可以判断join的方式,是SortMergeJoin还是broadcast join
- 7.2.2 判断各类操作下,有没有数据和时间倾斜
- 7.2.3 怀疑有数据膨胀时,可以定位分析
- 7.2.4 检查分区过滤条件是否生效
- 7.2.1 可以判断join的方式,是SortMergeJoin还是broadcast join
- 7.1 了解 sql
- 八、Debug
- 九、Streming
前言
- 日常工作中经常用到sparkui来排查一些问题,有些东西需要经常搜索,网上的文章有写的很棒的,也有写的一言难尽的,这里参考了其他大佬的文章