HBase--伪分布和集群模式

  本博客主要介绍一下,HBase伪分布模式安装HBase集群模式的安装,以 hbase-0.98.8-hadoop2-bin.tar.gz 为例 。 操作比较简单,基本都是之前安装 hadooprediszookeeperkafkaflumehive 等一样的流程。下载后上传解压,修改一下配置文件环境变量配置临时和数据目录,然后启动即可。集群就是先规划,然后配置好一台后 scp 等就OK了。

  在搭建HBase的时候,需要保证Hdfs已经能正常运行HBase还需要zookeeper来做协调管理,但HBase也有内置的zk,如果需要使用外部的zk,需要修改配置文件hbase-site如下我们就配置了外部的zk。

Hive--数据类型与表

  本片博客介绍了数据类型以及数据的映射,主要讲解,表的创建,表的两种类型(受控表、外部表)。还有分区桶表视图

数据类型

Hive支持的数据类型如下:

  • 基本类型
    1
    2
    3
    4
    5
    6
    tinyint smallint int bigint
    boolean
    float double
    string
    binary 字节数组(Hive 0.8.0 以上才可用)
    timestamp (Hive 0.8.0 以上才可用)

Hive--概述与使用

  本博客主要讲解Hive的特点Hive的数据存储数据单元Hive的系统架构Hive的metastore。以及安装hive和简单使用,最后修改hive默认的metadata derby为mysql。

认识Hive

  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质就是将SQL转换为MapReduce程序。与关系型数据库的SQL 略有不同,但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机事务处理,也不提供实时查询功能它最适合应用在基于大量不可变数据的批处理作业。

Flume--负载均衡和故障转移

  Flume Sink Processors,source里的event流经channel,进入sink。在sink中可以分组,sink groups允许给一个实体设置多个sinks,sink processors可以使在sink group中所有sink具有负载均衡的能力,或者在一个sink失效后切换到另一个sink的fail over模式

  • 下面来看一下Sink Processors结构图
    Sink Processors 结构图

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器