Storm--故障容忍和消息可靠性

  如果Storm集群中某个Worker挂了会怎样?Nimbus和Supervisor挂掉了又会怎样?Storm流式处理数据又是怎样保证每条数据都能完全被处理的呢?这将是本博客讨论的重点,Storm的故障容忍,以及Storm的消息可靠性Acker机制

Storm--实时数据处理框架

  Storm 是Twitter开源的一个实时数据处理框架Storm能实现高频数据和大规模数据的实时处理,很多人喜欢拿Hadoop来进行比较,其实他们差别挺大的,关键是应用场景不一样。

Storm简介

  • Storm与Hadoop区别主要有以下几点:

    1. 场景: Hadoop 处理批量数据,不讲究时效性,Storm 是要处理某一新增数据时用的,要讲时效性;
    2. 数据: Hadoop 处理的是hdfs上TB级别的数据(历史数据),Storm 是处理的是实时新增的某一笔数据(实时数据);
    3. 速度: Hadoop 是以处理hdfs上TB级别数据为目的,速度慢,Storm 是只要处理新增的某一笔数据即可,速度快。

算法--Paxos深入理解

  分布式系统中的节点通信存在两种模型:共享内存(Shared memory)消息传递(Messages passing)。基于消息传递通信模型的分布式系统,不可避免的会发生以下错误:进程可能会慢、被杀死或者重启,消息可能会延迟、丢失、重复,在基础Paxos场景中,先不考虑可能出现消息篡改即拜占庭错误的情况。Paxos算法解决的问题是在一个可能发生上述异常的分布式系统中如何就某个值达成一致,保证不论发生以上任何异常,都不会破坏决议的一致性(来源维基百科)。

  • Paxos 是什么
  1. 一个可靠的存储系统: 基于多数派读写;
  2. 强一致性;
  3. 每个paxos实例用来存储一个值;
  4. 用2轮RPC来确定一个值;
  5. 一个值‘确定’后不能被修改;
  6. ‘确定’指被多数派接受写入。

HBase--读写数据

  HBaseHadoop Database),是一个高可靠性高性能面向列可伸缩分布式存储系统。HBase是基于hadoop分布式文件系统(HDFS),模仿了Google文件系统BigTable数据库所有功能。

  本博客主要介绍HBase的体系结构,如HMasterHRegionServerHRegionStoreMemStoreStoreFileHLogHFileKeyValue等、HBase数据的读写流程,以及读写流程中所用到LSM树墓碑标记布隆过滤器等。

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器