0
点赞
收藏
分享

微信扫一扫

MapeReduce中job提交流程

跟着Damon写代码 2022-04-24 阅读 29

源码流程自己走一遍

目录

job提交流程图

概念补充

Job源码流程

 1.新旧API

3.查看路径问题 

​4.拷贝和配置相关信息

 5.设置切片信息

6.提交xml.配置信息

7.提交完毕


job提交流程图

MapTask的并行决定map阶段的任务处理并发度,影响到整个job的处理速度

概念补充

数据块:Block数HDFS物理上把数据分成一块一块。数据块是HDFS的默认存储单位,默认存储大小128MB

数据切片:数据切片只在逻辑上对输入进行分片,并不会在磁盘上将其切分进行存储(ps:相当于操作系统中说的逻辑地址)。数据切片是mapReduce成熟计算的数据单位,一个切片启动一个MapTask.

注意:

1.先切片->Mapper->reduce,切片split的个数巨顶MapTask的实例

2.默认切片大小等于BlockSize 128MB

3.切片不考率数据的整体性,对每一个文件单独切片

Job源码流程

Job提交东西

本地 :xml和切片信息 集群: jar包、xml、切片信息

提交入口进去方法查看

 1.新旧API

2. 查看客户端

3.查看路径问题 

4.拷贝和配置相关信息

 5.设置切片信息

设置多少片 

6.提交xml.配置信息

 

 

7.提交完毕

 提交完毕会,缓存信息会全部删掉

举报

相关推荐

0 条评论