MapOutputTracker 是 Spark 架构中的一个模块,是一个主从架构。 管理磁盘小文件的地址。
- MapOutputTrackerMaster 是主对象,存在于 Driver 中。
- MapOutputTrackerWorker 是从对象,存在于 Excutor 中。
BlockManager块管理者
- BlockManagerMaster,主对象,存在于 Driver 中。
- BlockManagerMaster 会在集群中有用到广播变量和缓存数据 或者删除缓存数据的时候,通知 BlockManagerSlave 传输或者 删除数据
- BlockManagerSlave,从对象,存在于 Excutor 中。BlockManagerSlave 会与 BlockManagerSlave 之间通信。
无论在 Driver 端的 BlockManager 还是在 Excutor 端的 BlockManager 都含有三个对象:
- DiskStore:负责磁盘的管理。
- MemoryStore:负责内存的管理。
- BlockTransferService:负责数据的传输。
Shuffle 文件寻址图
Shuffle 文件寻址流程
- 当 map task 执行完成后,会将 task 的执行情况和磁盘小文件 的地址封装到 MpStatus 对象中,通过 MapOutputTrackerWorker 对象向 Driver 中的 MapOutputTrackerMaster 汇报。
- 在所有的 map task 执行完毕后,Driver 中就掌握了所有的磁 盘小文件的地址。
- 在 reduce task 执行之前,会通过 Excutor 中 MapOutPutTrackerWorker 向 Driver 端的 MapOutputTrackerMaster 获取磁盘小文件的地址。
- 获取到磁盘小文件的地址后,会通过 BlockManager 连接数据 所在节点,然后通过 BlockTransferService 进行数据的传输。
- BlockTransferService 默认启动 5 个 task 去节点拉取数据。默 认情况下,5 个 task 拉取数据量不能超过 48M。