Spark Streaming--应用与实战(四)

2017-06-10

Spark

　　对项目做压测与相关的优化，主要从内存(executor-memory和driver-memory)、num-executors、executor-cores，以及代码层面做一些测试和改造。

压测

spark-submit –master yarn-client –conf spark.driver.memory=256m –class com.xiaoxiaomo.KafkaDataStream –num-executors 1 –executor-memory 256m –executor-cores 2 –conf spark.locality.wait=100ms hspark.jar 3 1000
Spark streaming 处理速度为3s一次，每次1000条
Kafka product 每秒1000条数据，与上面spark consumer消费者恰好相等。结果：数据量大导致积压，这个过程中active Batches会越变越大.

阅读全文

Spark Streaming--应用与实战(三)

2017-06-10

Spark

　　第一篇介绍了项目背景，为什么需要对架构进行一些改造，以及为啥要引入SparkStreaming，第二篇就是一些具体的方法实现，
第三篇，该篇主要在代码运行起来的情况下来看一下任务的运行情况主要是streaming的监控界面，以及我们怎么去通过监控界面发现问题和解决问题。

监控

官网中指出，spark中专门为SparkStreaming程序的监控设置了额外的途径，当使用StreamingContext时，在WEB UI中会出现一个”Streaming”的选项卡，

阅读全文

Spark Streaming--应用与实战(二)

2017-06-10

Kafka HBase Spark Zookeeper

然后就开始写代码了

总体思路就是:

put数据构造json数据，写入kafka；
spark streaming任务启动后首先去zookeeper中去读取offset,组装成fromOffsets；
spark streaming 获取到fromOffsets后通过KafkaUtils.createDirectStream去消费Kafka的数据；
读取kafka数据返回一个InputDStream的信息，foreachRDD遍历，同时记录读取到的offset到zk中；
写入数据到HBase

阅读全文

Spark Streaming--应用与实战(一)

2017-06-10

Kafka HBase Spark Zookeeper

　　接下来的几篇博客是一个连续的部分，主要分为了：

一、背景

笔者所在部门宜人蜂巢 ，是由李善仁宜人贷副总裁，宜人蜂巢负责人 2013年创建。宜人蜂巢 是做什么的？笔者在这里简单表述一下宜人蜂巢 – 数据科学驱动的互联网风控解决方案，通过千万级爬虫并发技术、计算机视觉技术、机器学习技术等；实时数据采集源；鲜活信用分析特征提取；多维度特征下的欺诈行为交叉检测等一系列科技手段助力金融生态和谐健康发展。
在大数据风控领域，数据是一切工作的根基。数据量的多少、维度的多少，抓取的速度、成功率都是评判数据质量、获取能力的重要条件。在经过用户授权的情况下，宜人蜂巢可以实现对“社交、电商、金融、信用、社保”五大维度的实时数据抓取。宜人蜂巢正在积极与银行、电商、电信运营商、保险公司以及社保基金等机构展开合作，进一步提高数据抓取的工作效率。
所以在大量数据获取之后，对于底层的数据存储依赖也是相当高的，传统的数据库已经没法在支持，对底层数据服务架构的改造迫在眉睫。

阅读全文

Linux--Linux相关系列博客

2017-06-07

Linux

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

当前网速较慢或者你使用的浏览器不支持博客特定功能，请尝试刷新或换用Chrome、Firefox等现代浏览器

当前网速较慢或者你使用的浏览器不支持博客特定功能，请尝试刷新或换用Chrome、Firefox等现代浏览器