我接着 分享主题 往下看,上两篇主要介绍了Spark,本篇文章主要介绍Spark Streaming
相关概念,有如下内容:
- (介绍的比较基础哈,大神就可以跳过了,对 Spark Streaming 相关的应用 可以看之前的博客)
- Spark Streaming 在计算引擎中的位置
- Spark Streaming 的介绍
- Spark Streaming 处理的数据流
- Spark Streaming 相关概念
阅读全文
div>
- 上篇博客主要讲了Spark的执行流程,看完后应该是对Spark有一个整体的了解,对Spark各个组件的工作流程都应该是有一个很清晰的认识了。
本篇博客,笔者主要是继续接着“宜人蜂巢内部分享”,从RDD的角度来看Spark的内部原理,包括以下内容:
- RDD为什么是Spark的核心概念
- 通过一个wordCount例子来看一看RDD
- RDD的管理与操作(算子)
- 常见的RDD操作有哪些(包括RDD的分类)
- RDD的依赖关系(DAG)
- RDD依赖关系的划分(stage)
阅读全文
div>
上周在 宜人蜂巢 内部分享了 spark
、和 spark streaming
相关的主题,现在有些空闲时间,就整理了一下,放在博客上面。
- 一篇博客描述不完整,即使讲完了也会显得很臃肿,所以会分为以下几篇博客来讲解:
阅读全文
div>
管理Streaming任务
- 这是目前Spark Streaming
系列博客的最后一篇文章了,该篇文章主要讲一下我自己对Spark Streaming
任务的一些划分,还有一个Spark Streaming
任务的邮件监控。
Streaming 任务的划分
阅读全文
div>
前期的一系列 Spark Streaming相关博客 其实还没写完,对于宜人蜂巢这样一个多维度的实时数据抓取服务来讲,对性能的要求极高,需要更多的压测与性能检测。 还有一些优化和监控,一直没更新主要是因为还不够完善,但是最近也没时间来弄了。虽然不完善但是还是可以写写已经完成的,因为也有不少网友通过微信和邮件联系到了我,也讨论了一些问题,后续再继续跟进吧。
Streaming 持续优化之HBase
阅读全文
div>
当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器