源码流程自己走一遍
目录
job提交流程图
MapTask的并行决定map阶段的任务处理并发度,影响到整个job的处理速度
概念补充
数据块:Block数HDFS物理上把数据分成一块一块。数据块是HDFS的默认存储单位,默认存储大小128MB
数据切片:数据切片只在逻辑上对输入进行分片,并不会在磁盘上将其切分进行存储(ps:相当于操作系统中说的逻辑地址)。数据切片是mapReduce成熟计算的数据单位,一个切片启动一个MapTask.
注意:
1.先切片->Mapper->reduce,切片split的个数巨顶MapTask的实例
2.默认切片大小等于BlockSize 128MB
3.切片不考率数据的整体性,对每一个文件单独切片
Job源码流程
Job提交东西
本地 :xml和切片信息 集群: jar包、xml、切片信息
提交入口进去方法查看
1.新旧API
2. 查看客户端
3.查看路径问题
4.拷贝和配置相关信息
5.设置切片信息
设置多少片
6.提交xml.配置信息
7.提交完毕
提交完毕会,缓存信息会全部删掉