0
点赞
收藏
分享

微信扫一扫

Spark Shuffle 文件寻址

MapOutputTracker 是 Spark 架构中的一个模块,是一个主从架构。 管理磁盘小文件的地址。

  • MapOutputTrackerMaster 是主对象,存在于 Driver 中。
  • MapOutputTrackerWorker 是从对象,存在于 Excutor 中。

BlockManager块管理者

  • BlockManagerMaster,主对象,存在于 Driver 中。
  • BlockManagerMaster 会在集群中有用到广播变量和缓存数据 或者删除缓存数据的时候,通知 BlockManagerSlave 传输或者 删除数据
  • BlockManagerSlave,从对象,存在于 Excutor 中。BlockManagerSlave 会与 BlockManagerSlave 之间通信。

无论在 Driver 端的 BlockManager 还是在 Excutor 端的 BlockManager 都含有三个对象:

  • DiskStore:负责磁盘的管理。
  • MemoryStore:负责内存的管理。
  • BlockTransferService:负责数据的传输。

Shuffle 文件寻址图
Spark Shuffle 文件寻址_spark

Shuffle 文件寻址流程

  • 当 map task 执行完成后,会将 task 的执行情况和磁盘小文件 的地址封装到 MpStatus 对象中,通过 MapOutputTrackerWorker 对象向 Driver 中的 MapOutputTrackerMaster 汇报。
  • 在所有的 map task 执行完毕后,Driver 中就掌握了所有的磁 盘小文件的地址。
  • 在 reduce task 执行之前,会通过 Excutor 中 MapOutPutTrackerWorker 向 Driver 端的 MapOutputTrackerMaster 获取磁盘小文件的地址。
  • 获取到磁盘小文件的地址后,会通过 BlockManager 连接数据 所在节点,然后通过 BlockTransferService 进行数据的传输。
  • BlockTransferService 默认启动 5 个 task 去节点拉取数据。默 认情况下,5 个 task 拉取数据量不能超过 48M。


举报

相关推荐

0 条评论