Spark--从Spark组件来看Spark的执行流程

  上周在 宜人贷蜂巢 内部分享了 spark 、和 spark streaming 相关的主题,现在有些空闲时间,就整理了一下,放在博客上面。

  • 一篇博客描述不完整,即使讲完了也会显得很臃肿,所以会分为以下几篇博客来讲解:
  1. Spark – Spark 相关介绍(如下)
  2. Spark – 从Spark组件来看Spark的执行流程(如下)
  3. Spark – 从RDD的角度来看Spark内部原理
  4. Spark Streaming – 相关介绍
  5. Spark Streaming – 相关应用(这个之前的博客已经讲了)

Spark Streaming--应用与实战(五)

  前期的一系列 Spark Streaming相关博客 其实还没写完,对于宜人贷蜂巢这样一个多维度的实时数据抓取服务来讲,对性能的要求极高,需要更多的压测与性能检测。 还有一些优化和监控,一直没更新主要是因为还不够完善,但是最近也没时间来弄了。虽然不完善但是还是可以写写已经完成的,因为也有不少网友通过微信和邮件联系到了我,也讨论了一些问题,后续再继续跟进吧。

Streaming 持续优化之HBase

Spark Streaming--应用与实战(四)

  对项目做压测与相关的优化,主要从内存(executor-memory和driver-memory)、num-executors、executor-cores,以及代码层面做一些测试和改造。

压测

  1. spark-submit –master yarn-client –conf spark.driver.memory=256m –class com.xiaoxiaomo.KafkaDataStream –num-executors 1 –executor-memory 256m –executor-cores 2 –conf spark.locality.wait=100ms hspark.jar 3 1000
    Spark streaming 处理速度为3s一次,每次1000条
    Kafka product 每秒1000条数据, 与上面spark consumer消费者恰好相等。结果:数据量大导致积压,这个过程中active Batches会越变越大.

Spark Streaming--应用与实战(三)

  第一篇介绍了项目背景,为什么需要对架构进行一些改造,以及为啥要引入SparkStreaming,第二篇就是一些具体的方法实现,
第三篇,该篇主要在代码运行起来的情况下来看一下任务的运行情况主要是streaming的监控界面,以及我们怎么去通过监控界面发现问题和解决问题。

监控

  • 官网中指出,spark中专门为SparkStreaming程序的监控设置了额外的途径,当使用StreamingContext时,在WEB UI中会出现一个”Streaming”的选项卡,
    WEB UI中的”Streaming”选项卡

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器