Spark--从Spark组件来看Spark的执行流程

2017-07-05

Spark

　　上周在宜人蜂巢内部分享了 spark 、和 spark streaming 相关的主题，现在有些空闲时间，就整理了一下，放在博客上面。

Spark 相关介绍

Flink也是后起之秀哈，势头猛的很，还有阿里的Blink在支撑，感觉流行起来是迟早的事情
流计算这些 Flink 是要强一点，真正的流计算。不过前段时间的Spark Summit 2017大会也是说spark 2.2后重点会是流计算与深度学习
Spark SQL或者Hive on Spark 相对与 Flink 也是有优势
总的来说与 Flink 里面的东西差不多，如果对 Spark 深入了解后对 Flink 的应用也是简单事情。

client：客户端进程，负责提交job到master
Driver：运行Application，主要是做一些job的初始化工作，包括job的解析，DAG的构建和划分并提交和监控task
Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker，在YARN模式中为资源管理器ResourceManager
Worker：负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，启动Driver。Executor，即真正执行作业的地方，一个Executor可以执行一到多个Task

再把图细画一下
spark执行流程图，ps:不清楚可以点击放大了看

通过SparkSubmit提交job后，Client就开始构建 spark context，即 application 的运行环境（使用本地的Client类的main函数来创建spark context并初始化它）
yarn client提交任务，Driver在客户端本地运行；yarn cluster提交任务的时候，Driver是运行在集群上
SparkContext连接到ClusterManager(Master)，向资源管理器注册并申请运行Executor的资源（内核和内存）
**Master**根据SparkContext提出的申请，根据worker的心跳报告，来决定到底在那个worker上启动executor
Worker节点收到请求后会启动executor
executor向SparkContext注册，这样driver就知道哪些executor运行该应用
SparkContext将Application代码发送给executor（如果是standalone模式就是StandaloneExecutorBackend）
同时SparkContext解析Application代码，构建DAG图，提交给DAGScheduler进行分解成stage，stage被发送到TaskScheduler。
TaskScheduler负责将Task分配到相应的worker上，最后提交给executor执行
executor会建立Executor线程池，开始执行Task，并向SparkContext汇报,直到所有的task执行完成
所有Task完成后，SparkContext向Master注销