Spark–一文了解WebUI_spark web ui，2024年最新已整理成文档-个人在线分享

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
Spark–一文了解WebUI_spark web ui，2024年最新已整理成文档插图

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）
Spark–一文了解WebUI_spark web ui，2024年最新已整理成文档插图(5)

正文

- 3.1 了解stage
  - 3.2 关于stage我们需要知道的小知识
  - - 3.2.1 有的stage名叫Listing leaf files and directories for xxx paths
      - 3.2.2 有的stage会显示xxtask failed，代表什么意思呢，为什么task失败stage不会失败呢
      - 3.2.3 为什么一般spill disk要小于spill memory
      - 3.2.4 为什么要序列化
      - 3.2.5 为什么tasks中有些 index 相同
      - 3.2.6 为什么Spill (memory)/(disk)大量溢出，怎么优化
四、Storage
- 4.1 了解Storage
  - 4.2 关于stage我们需要知道的小知识
  - - 4.2.1 StorageLevel都有哪些
      - 4.2.2 ache table有什么用，和broadcast有什么关系或者区别吗
五、Environment
- 5.1 了解environment
  - 5.2 常用参数
  - - 5.2.1 executor申请&并行度
      - 5.2.2 内存分配
      - 5.2.3 文件输入输出与合并
      - 5.2.4 mapjoin
      - 5.2.5 shuffle阶段
      - 5.2.6 推测执行
      - 5.2.7 谓词下推
六、Executors
- 6.1 了解 executors
  - 6.2 关于 executors 我们需要知道的小知识
  - - 6.2.1 executor和driver到底是什么东西？
      - 6.2.2 2.storage memory中的总内存数代表什么意思
七、SQL
- 7.1 了解 sql
  - 7.2 关于 sql 我们需要知道的小知识
  - - 7.2.1 可以判断join的方式，是SortMergeJoin还是broadcast join
      - 7.2.2 判断各类操作下，有没有数据和时间倾斜
      - 7.2.3 怀疑有数据膨胀时，可以定位分析
      - 7.2.4 检查分区过滤条件是否生效
八、Debug
九、Streming

前言

日常工作中经常用到sparkui来排查一些问题，有些东西需要经常搜索，网上的文章有写的很棒的，也有写的一言难尽的，这里参考了其他大佬的文章

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

正文

前言

admin 钻石

相关推荐