Storm--实时数据处理框架

  Storm 是Twitter开源的一个实时数据处理框架Storm能实现高频数据和大规模数据的实时处理,很多人喜欢拿Hadoop来进行比较,其实他们差别挺大的,关键是应用场景不一样。

Storm简介

  • Storm与Hadoop区别主要有以下几点:

    1. 场景: Hadoop 处理批量数据,不讲究时效性,Storm 是要处理某一新增数据时用的,要讲时效性;
    2. 数据: Hadoop 处理的是hdfs上TB级别的数据(历史数据),Storm 是处理的是实时新增的某一笔数据(实时数据);
    3. 速度: Hadoop 是以处理hdfs上TB级别数据为目的,速度慢,Storm 是只要处理新增的某一笔数据即可,速度快。

算法--Paxos深入理解

  分布式系统中的节点通信存在两种模型:共享内存(Shared memory)消息传递(Messages passing)。基于消息传递通信模型的分布式系统,不可避免的会发生以下错误:进程可能会慢、被杀死或者重启,消息可能会延迟、丢失、重复,在基础Paxos场景中,先不考虑可能出现消息篡改即拜占庭错误的情况。Paxos算法解决的问题是在一个可能发生上述异常的分布式系统中如何就某个值达成一致,保证不论发生以上任何异常,都不会破坏决议的一致性(来源维基百科)。

  • Paxos 是什么
  1. 一个可靠的存储系统: 基于多数派读写;
  2. 强一致性;
  3. 每个paxos实例用来存储一个值;
  4. 用2轮RPC来确定一个值;
  5. 一个值‘确定’后不能被修改;
  6. ‘确定’指被多数派接受写入。

HBase--读写数据

  HBaseHadoop Database),是一个高可靠性高性能面向列可伸缩分布式存储系统。HBase是基于hadoop分布式文件系统(HDFS),模仿了Google文件系统BigTable数据库所有功能。

  本博客主要介绍HBase的体系结构,如HMasterHRegionServerHRegionStoreMemStoreStoreFileHLogHFileKeyValue等、HBase数据的读写流程,以及读写流程中所用到LSM树墓碑标记布隆过滤器等。

HBase--伪分布和集群模式

  本博客主要介绍一下,HBase伪分布模式安装HBase集群模式的安装,以 hbase-0.98.8-hadoop2-bin.tar.gz 为例 。 操作比较简单,基本都是之前安装 hadooprediszookeeperkafkaflumehive 等一样的流程。下载后上传解压,修改一下配置文件环境变量配置临时和数据目录,然后启动即可。集群就是先规划,然后配置好一台后 scp 等就OK了。

  在搭建HBase的时候,需要保证Hdfs已经能正常运行HBase还需要zookeeper来做协调管理,但HBase也有内置的zk,如果需要使用外部的zk,需要修改配置文件hbase-site如下我们就配置了外部的zk。

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器