Hadoop3：MapReduce源码解读之Map阶段的Job任务提交流程（1）-个人在线分享

3、Job工作机制源码解读

用之前wordcount案例进行源码阅读，debug断点打在Job任务提交时
Hadoop3：MapReduce源码解读之Map阶段的Job任务提交流程（1）插图

提交任务前，建立客户单连接
如下图，可以看出，只有两个客户端提供者，一个是YarnClient，一个是LocalClient。
显然，我这里是LocalClient模式
Hadoop3：MapReduce源码解读之Map阶段的Job任务提交流程（1）插图(1)
检查输出路径是否存在，存在则报错

这里的两串提示就很熟悉了，如果输出路径存在，则报错。
提交任务前会创建一个jobID，并创建相关文件夹，文件夹里存放临时的文件数据，job完成后会删除
Hadoop3：MapReduce源码解读之Map阶段的Job任务提交流程（1）插图(5)
切片和MapTask的关系：切片数决定MapTask线程数量
关键日志：number of splits

流程总结：

waitForCompletion()
submit();
// 1建立连接
	connect();	
		// 1）创建提交Job的代理
		new Cluster(getConfiguration());
			// （1）判断是本地运行环境还是yarn集群运行环境
			initialize(jobTrackAddr, conf); 
// 2 提交job
submitter.submitJobInternal(Job.this, cluster)
	// 1）创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
	// 2）获取jobid ，并创建Job路径
	JobID jobId = submitClient.getNewJobID();
	// 3）拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);
	// 4）计算切片，生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);
	// 5）向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);
	// 6）提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

流程图
Hadoop3：MapReduce源码解读之Map阶段的Job任务提交流程（1）插图(7)

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

3、Job工作机制源码解读

admin 钻石

相关推荐