【大数据架构】基于流式数据的大数据架构升级-个人在线分享

背景

团队在升级大数据架构，摒弃了原来基于hadoop的架构，因此抛弃了hive，hdfs，mapreduce这一套，在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg，存储于minio。在写入iceberg的时候，首先是写data数据文件，然后再写iceberg的metadata文件，分两步走，在kafka中有两个topic，一个负责些data数据文件，一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件，那么我们还有一个程序使用网易的amro来监控数据库表的data目录，设置好参数实时的去合并这些小文件，总体效果不错。

前端使用trino查询，对trino也进行了很多优化，目前测试来看，运行还算稳定，但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive，而hive是跑mapreduce依赖于hadoop，新架构摒弃了hadoop，当然也没法用hive跑了，因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

背景

admin 钻石

相关推荐