Storm--DRPC

2016-06-10

Storm

　　DRPC （Distributed RPC）分布式远程过程调用，Storm中的DRPC提供了集群中处理功能的访问接口。相当于集群向外暴露一个功能接口，用户可以在任何地方进行调用。DRPC的真正目的就是使用storm的实时并行计算功能。以一个输入流作为函数参数，以一个输出流的形式发射每个函数调用的结果。

DRPC介绍

Storm DRPC

阅读全文

Storm--故障容忍和消息可靠性

2016-06-10

Storm

　　如果Storm集群中某个Worker挂了会怎样？Nimbus和Supervisor挂掉了又会怎样？Storm流式处理数据又是怎样保证每条数据都能完全被处理的呢？这将是本博客讨论的重点，Storm的故障容忍，以及Storm的消息可靠性和Acker机制。

阅读全文

Storm--并行度

2016-06-09

Storm

　　storm的并行度，其实就是让storm中的组件使用多线程来运行，正常情况下，每一个组件都是一个线程来运行的。

Storm的并行度

阅读全文

Storm--实时数据处理框架

2016-06-08

Storm

　　Storm 是Twitter开源的一个实时数据处理框架。Storm能实现高频数据和大规模数据的实时处理，很多人喜欢拿Hadoop来进行比较，其实他们差别挺大的，关键是应用场景不一样。

Storm简介

Storm与Hadoop区别主要有以下几点：
1. 场景： Hadoop 处理批量数据，不讲究时效性，Storm 是要处理某一新增数据时用的，要讲时效性；
2. 数据： Hadoop 处理的是hdfs上TB级别的数据(历史数据)，Storm 是处理的是实时新增的某一笔数据(实时数据)；
3. 速度： Hadoop 是以处理hdfs上TB级别数据为目的，速度慢，Storm 是只要处理新增的某一笔数据即可，速度快。

阅读全文

算法--Paxos深入理解

2016-06-07

算法

　　分布式系统中的节点通信存在两种模型：共享内存（Shared memory）和消息传递（Messages passing）。基于消息传递通信模型的分布式系统，不可避免的会发生以下错误：进程可能会慢、被杀死或者重启，消息可能会延迟、丢失、重复，在基础Paxos场景中，先不考虑可能出现消息篡改即拜占庭错误的情况。Paxos算法解决的问题是在一个可能发生上述异常的分布式系统中如何就某个值达成一致，保证不论发生以上任何异常，都不会破坏决议的一致性（来源维基百科）。

Paxos 是什么？

一个可靠的存储系统: 基于多数派读写;
强一致性；
每个paxos实例用来存储一个值;
用2轮RPC来确定一个值;
一个值‘确定’后不能被修改；
‘确定’指被多数派接受写入。

阅读全文

Spark 系列博客

从Spark组件来看Spark的执行流程

Spark Streaming--应用与实战

streaming 系列博客详细讲解

Hadoop-MapReduce 源码分析

详细图解

Storm--DRPC

DRPC介绍

Storm--故障容忍和消息可靠性

Storm--并行度

Storm--实时数据处理框架

Storm简介

算法--Paxos深入理解