Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）-CFANZ编程社区

文章目录

一、深入RDD

1. 案例

1.1 假设要针对整个网站的历史数据进行梳理，量有1T，如何处理？
1.2 如何放在集群中运行
3. 如何放在集群中的话，可能要整个计算任务进行分解，如何分解？
1.4 移动数据不如移动计算是一个基础的优化，如何做到？
1.5 在集群中运行，需要很多节点之间的配合，出错概率也高，出错怎么办？
1.6 假如任务特别复杂流程长，有很多RDD之间有依赖关系如何优化？

二、再谈RDD

2.1 RDD为什么会出现
2.2 RDD的特点
2.3 什么叫做弹性分布式数据集

总结RDD的五大特性

首先整理一下上面所提到的 RDD 所要实现的功能:
对于 RDD 来说, 其中应该有什么内容呢? 如果站在 RDD 设计者的角度上, 这个类中, 至少需要什么属性?

一、深入RDD

目标：深入理解RDD的内在逻辑，以及RDD的内部属性（由什么组成）

1. 案例

需求：

给订一个网站的访问记录，俗称Access log
计算机其中出现的独立IP，以及访问次数

val config = new SparkConf().setAppName("ip_ana").setMaster("local[6]")
val sc = new SparkContext(config)

val result = sc.textFile("dataset/access_log_sample.txt")
  .map(item => (item.split(" ")(0), 1))
  .filter(item => StringUtils.isNotBlank(item._1))
  .reduceByKey((curr, agg) => curr + agg)
  .sortBy(item => item._2, false)
  .take(10)

result.foreach(item => println(item))

针对这个小案例，我们问出互联网关联但是又方向不同的五个问题。

1.1 假设要针对整个网站的历史数据进行梳理，量有1T，如何处理？

放在集群中, 利用集群多台计算机来并行处理

1.2 如何放在集群中运行

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_依赖关系

简单来说，并行计算就是同时使用多个计算资源解决一个问题，四个要点如下：

要解决的问题必须可以分解为多个可以并发计算的部分

每个部分要可以在不同处理器上被同时执行

需要一个共享内存的机制

需要一个总体上的协作机制来进行调度

3. 如何放在集群中的话，可能要整个计算任务进行分解，如何分解？

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_分布式_02

概述：

对于 HDFS 中的文件, 是分为不同的 Block 的

在进行计算的时候, 就可以按照 Block 来划分, 每一个 Block 对应一个不同的计算单元

扩展
RDD 并没有真实的存放数据, 数据是从 HDFS 中读取的, 在计算的过程中读取即可

RDD 至少是需要可以分片的, 因为HDFS中的文件就是分片的, RDD 分片的意义在于表示对源数据集每个分片的计算, RDD 可以分片也意味着可以并行计算

1.4 移动数据不如移动计算是一个基础的优化，如何做到？

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_分布式_03

1.5 在集群中运行，需要很多节点之间的配合，出错概率也高，出错怎么办？

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_依赖关系_04

RDD1 → RDD2 → RDD3 这个过程中, RDD2 出错了, 有两种办法可以解决
缓存 RDD2 的数据, 直接恢复 RDD2, 类似 HDFS 的备份机制

记录 RDD2 的依赖关系, 通过其父级的 RDD 来恢复 RDD2, 这种方式会少很多数据的交互和保存

如何通过父级 RDD 来恢复?
记录 RDD2 的父亲是 RDD1

记录 RDD2 的计算函数, 例如记录 RDD2 = RDD1.map(…), map(…) 就是计算函数

当 RDD2 计算出错的时候, 可以通过父级 RDD 和计算函数来恢复 RDD2

1.6 假如任务特别复杂流程长，有很多RDD之间有依赖关系如何优化？

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_数据_05

上面提到了可以使用依赖关系来进行容错, 但是如果依赖关系特别长的时候, 这种方式其实也比较低效, 这个时候就应该使用另外一种方式, 也就是记录数据集的状态

在 Spark 中有两个手段可以做到
缓存
Checkpoint

二、再谈RDD

目标
1.理解RDD为什么会出现
2.理解RDD的主要特点
3.理解RDD的五大属性

2.1 RDD为什么会出现

在 RDD 出现之前, 当时 MapReduce 是比较主流的, 而 MapReduce 如何执行迭代计算的任务呢?

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_数据_06

多个 MapReduce 任务之间没有基于内存的数据共享方式, 只能通过磁盘来进行共享

这种方式明显比较低效

RDD 如何解决迭代计算非常低效的问题呢?

Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）_spark_07

在 Spark 中, 其实最终 Job3 从逻辑上的计算过程是: Job3 = (Job1.map).filter, 整个过程是共享内存的, 而不需要将中间结果存放在可靠的分布式文件系统中

这种方式可以在保证容错的前提下, 提供更多的灵活, 更快的执行速度, RDD 在执行迭代型任务时候的表现可以通过下面代码体现

// 线性回归
val points = sc.textFile(...)
    .map(...)
    .persist(...)
val w = randomValue
for (i <- 1 to 10000) {
    val gradient = points.map(p => p.x * (1 / (1 + exp(-p.y * (w dot p.x))) - 1) * p.y)
        .reduce(_ + _)
    w -= gradient
}

在这个例子中，大致进行了10000次迭代，如果在MapReduce中实现，可能需要运行很多job，每个job之间都要通过 HDFS 共享结果, 熟快熟慢一窥便知