学习的过程, 需要梳理一些知识点
- spark的flink的怎么实现Exactly-once?什么是端到端?为什么spark无法保证(具体需区分批和流)
 - spark的checkpoint机制, 为何改了代码不能恢复?
 - 什么是流状态管理?
 - 流和批的区别是什么?Spark streaming(100ms)和Structured Streaming(1ms)是微批, 区别是什么?持续流和固定流?
 - flink为什么是流批一体(怎么理解), 和spark的区别?
 - 任务调度机制, 双层调度, 中心调度等?
 
硬核!八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once(深入原理,建议收藏)
spark和flink对比
由Dataflow模型聊Flink和Spark
Spark 持续流处理和微批处理的对比









