算法--Paxos深入理解

  分布式系统中的节点通信存在两种模型:共享内存(Shared memory)消息传递(Messages passing)。基于消息传递通信模型的分布式系统,不可避免的会发生以下错误:进程可能会慢、被杀死或者重启,消息可能会延迟、丢失、重复,在基础Paxos场景中,先不考虑可能出现消息篡改即拜占庭错误的情况。Paxos算法解决的问题是在一个可能发生上述异常的分布式系统中如何就某个值达成一致,保证不论发生以上任何异常,都不会破坏决议的一致性(来源维基百科)。

  • Paxos 是什么
  1. 一个可靠的存储系统: 基于多数派读写;
  2. 强一致性;
  3. 每个paxos实例用来存储一个值;
  4. 用2轮RPC来确定一个值;
  5. 一个值‘确定’后不能被修改;
  6. ‘确定’指被多数派接受写入。

HBase--读写数据

  HBaseHadoop Database),是一个高可靠性高性能面向列可伸缩分布式存储系统。HBase是基于hadoop分布式文件系统(HDFS),模仿了Google文件系统BigTable数据库所有功能。

  本博客主要介绍HBase的体系结构,如HMasterHRegionServerHRegionStoreMemStoreStoreFileHLogHFileKeyValue等、HBase数据的读写流程,以及读写流程中所用到LSM树墓碑标记布隆过滤器等。

HBase--伪分布和集群模式

  本博客主要介绍一下,HBase伪分布模式安装HBase集群模式的安装,以 hbase-0.98.8-hadoop2-bin.tar.gz 为例 。 操作比较简单,基本都是之前安装 hadooprediszookeeperkafkaflumehive 等一样的流程。下载后上传解压,修改一下配置文件环境变量配置临时和数据目录,然后启动即可。集群就是先规划,然后配置好一台后 scp 等就OK了。

  在搭建HBase的时候,需要保证Hdfs已经能正常运行HBase还需要zookeeper来做协调管理,但HBase也有内置的zk,如果需要使用外部的zk,需要修改配置文件hbase-site如下我们就配置了外部的zk。

Hive--数据类型与表

  本片博客介绍了数据类型以及数据的映射,主要讲解,表的创建,表的两种类型(受控表、外部表)。还有分区桶表视图

数据类型

Hive支持的数据类型如下:

  • 基本类型
    1
    2
    3
    4
    5
    6
    tinyint smallint int bigint
    boolean
    float double
    string
    binary 字节数组(Hive 0.8.0 以上才可用)
    timestamp (Hive 0.8.0 以上才可用)

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器