Spark--从RDD的角度来看Spark内部原理

2017-07-05

Spark

　　- 上篇博客主要讲了Spark的执行流程，看完后应该是对Spark有一个整体的了解，对Spark各个组件的工作流程都应该是有一个很清晰的认识了。
本篇博客，笔者主要是继续接着“宜人蜂巢内部分享”，从RDD的角度来看Spark的内部原理，包括以下内容：

RDD为什么是Spark的核心概念

通过一个wordCount例子来看一看RDD

RDD的管理与操作（算子）

常见的RDD操作有哪些（包括RDD的分类）

RDD的依赖关系（DAG）

RDD依赖关系的划分（stage）

RDD为什么是Spark的核心概念

Spark建立在统一抽象的RDD之上，使得Spark可以很容易扩展，比如 Spark Streaming、Spark SQL、Machine Learning、Graph都是在spark RDD上面进行的扩展（可以看见RDD的核心地位了吧）
RDD是什么呢？理解一下概念：

上面只是RDD的概念，下面举个wordCount的例子来说明一下：

1
2
3

val file = sc.textFile("hdfs://data/test.txt")

val data = file.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _)

wordCount 例子，执行示意图

作用当然大了！可以看出整个计算流程都是基于RDD在做计算,从数据加载，即RDD的创建,中途的计算（stage的划分，RDD的操作，shuffle）。到最后结果的输出，整个计算流程都是由RDD在贯穿

写博客其实挺累的，太耗时了

…

继续吧，既然已经开始…..

RDD操作
RDD还提供了一组丰富的操作来操作这些数据，这种操作叫做算子。比如map、flatMap、filter、join、groupBy、reduceByKey等
RDD分类，分为创建算子、转换、缓存、执行

所有的依赖都要实现trait Dependency[T]

abstract class Dependency[T] extends Serializable {
　　　　def rdd: RDD[T]
}
窄依赖是有两种具体实现 OneToOneDependency 和 RangeDependency

abstract class NarrowDependencyT extends Dependency[T] {
　　　　def getParents(partitionId: Int): Seq[Int]
　　　　override def rdd: RDD[T] = _rdd
}

//OneToOneDependency
class OneToOneDependencyT extends NarrowDependencyT {
　　　　override def getParents(partitionId: Int) = List(partitionId)

//RangeDependency
class RangeDependencyT extends NarrowDependencyT {

　　override def getParents(partitionId: Int): List[Int] = {
　　　　if (partitionId >= outStart && partitionId < outStart + length) {
　　　　　　List(partitionId - outStart + inStart)
　　　　} else {
　　　　　　Nil
　　　　}
　　}
}
宽依赖的实现只有一种：ShuffleDependency

class ShuffleDependency[K, V, C] extends Dependency[Product2[K, V]] { … }
窄依赖|宽依赖，可以通过dependencies方法来查看，以上面的wordCount为例，可以看到res4（reduceByKey）为宽依赖