Hadoop--HDFS之DataNode

  HDFS DataNode,提供真实文件数据的存储服务。上篇博客HDFS NameNode 讲的是HDFS元数据,本篇主要讲解HDFS存储的真实数据。这些真实数据重点由两个部分组成,一、Block块(数据存储单元),二、文件备份数,掌握Block块信息,副本数的设置。

Block块

  • 文件块(block):最基本的存储单位。
  1. 对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block
  2. HDFS,默认Block大小是128MB(2.0版本),以一个256MB文件,共有256/128=2个Block;
  3. HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间

Hadoop--HDFS之NameNode

  之前就打算写一下Hadoop系列博客的,由于写别的东西去了,一直也没抽空出来,上篇Hadoop–HDFS架构和Shell对HDFS的一个简单概述,还是两三个月前的事情了。做了这么久的Hadoop了,在这里算是自我总结一下吧,本篇博客主要讲解一下Hadoop HDFS的NameNode

  • 重点掌握
  1. NameNode 的作用;
  2. NameNode 元数据的底层结构;
  3. SecondaryNameNode 的作用以及工作流程,以及为什么需要SecondaryNameNode。

HBase--Shell

  有段时间没更新了,今天就来个简单的吧–HBase的Shell。这个没什么技术含量,主要是帮助文档太强大了!可以说无需刻意记忆,help command就搞定了。那为什么还要写这篇博客呢?那就回到了第一句话“有段时间没更新了”来个简单的(●’◡’●)”!其实,不是啦,主要是用来提醒自己两件事情,一多看帮助文档和源码,二不要忽视简单的东西脚踏实地。(注:HBase版本0.98.8-hadoop2

Storm--DRPC

  DRPCDistributed RPC)分布式远程过程调用,Storm中的DRPC提供了集群中处理功能的访问接口。相当于集群向外暴露一个功能接口,用户可以在任何地方进行调用。DRPC的真正目的就是使用storm的实时并行计算功能。以一个输入流作为函数参数,以一个输出流的形式发射每个函数调用的结果。

DRPC介绍

Storm DRPC

Storm--故障容忍和消息可靠性

  如果Storm集群中某个Worker挂了会怎样?Nimbus和Supervisor挂掉了又会怎样?Storm流式处理数据又是怎样保证每条数据都能完全被处理的呢?这将是本博客讨论的重点,Storm的故障容忍,以及Storm的消息可靠性Acker机制

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器