OWL--监控系统实战二搭建梳理

  本篇博客不会讲具体的怎么搭建owl,而只是对一些遇到的问题进行梳理。因为已经有文档讲的非常清楚了,可以去github:https://github.com/TalkingData/owl 上指定的QQ群里面获取(所以,如果参考QQ群上面的文档安装没有什么问题可跳过该篇博客)。

整个环境搭建的梳理

  • 开始准备安装软件
    • 搭建OWL之前,需要安装OpenTSDBMySQLHBaseNginxJDKGO语言环境
    • 安装HBase、MySQL、Nginx、JDK这些就不在这里介绍了,可以参考我之前的博客。
    • 所以下面就介绍一下OpenTSDB、GO语言环境、OWL的搭建

OWL--监控系统实战一平台概述

  接下来的几篇博客是一个连续的部分,主要讲解OWL监控系统实战与二次开发OWL-是 TalkingData 推出的一款开源分布式监控系统。本篇是该系列的第一遍博客,将总体的介绍一下背景目的,好让读者有一个整体的概念:

该系列博客所设计到的代码也会开源出来,后面会贴出github地址
所以,在实战五和六中有一部分是伪代码(用// …… 省略)

一、目录

  1. OWL–监控系统实战一平台概述,讲解背景目的以及监控平台概述
  2. OWL–监控系统实战二搭建梳理,整个环境搭建的梳理
  3. OWL–监控系统实战三源码阅读,OWL的介绍,一起来看看具体的源码
  4. OWL–监控系统实战四认识OpenTSDB,认识一下OpenTSDB
  5. OWL–监控系统实战五二次开发,Linux用户级别的Metrics收集
  6. OWL–监控系统实战六插件开发,插件收集Hadoop平台Metrics信息(做一个自己的Cloudera Manager)
  7. OWL–监控系统实战七上线运行,上线运行的事情,可以当作一个参考

Hadoop--快速搭建大数据开发环境

背景

  最近自己电脑的磁盘坏了,导致数据也没了。安装好系统之后就是各种弄环境了,之前的博客也写过Hadoop环境搭建 HadoopHiveHBaseKafkaSparkMySQLRedis等等一系列的。
之前记录的目的也是为了方便自己吧,但整个流程下来还是的花费几个小时。从前面的博客找到从虚拟机的网络配置,下载软件上传在修改配置挺麻烦的。这里再次做个汇总,以后做这个过程或者升级就更加方便(主要便捷是后面会给出一个Virtual Box的包直接导入就有这些所有环境了)。

准备

  • 软件下载(可以通过该链接自己下载,同时我在附录中也提供了百度云下载地址)
  1. https://www.virtualbox.org/wiki/Downloads virtual box 使用了5.0.40版本
  2. http://vault.centos.org/6.5/isos/x86_64/ box 使用CentOS-6.5-x86_64-minimal.iso
  3. http://archive.apache.org/dist/hadoop/common 使用 hadoop-2.7.2
  4. http://archive.apache.org/dist/hbase/ 使用 hbase-1.3.1-bin.tar.gz
  5. http://archive.apache.org/dist/hive/ 使用apache-hive-1.2.1-bin.tar.gz
  6. http://archive.apache.org/dist/kafka/ 使用 kafka_2.11-0.11.0.0.tgz
  7. http://archive.apache.org/dist/zookeeper/ 使用 zookeeper-3.4.9.tar.gz
  8. http://archive.apache.org/dist/spark/ 使用 spark-2.0.0-bin-hadoop2.7.tgz
  9. http://www.oracle.com/technetwork/java/javase/downloads/index.html 使用 jdk-8u144-linux-x64.tar.gz
  10. https://redis.io/download 使用 redis-3.0.6.tar.gz
  11. https://dev.mysql.com/downloads/mysql/5.5.html?os=31&version=5.1 使用 mysql-5.7.9-1.el6.x86_64.rpm-bundle.tar

Spark--从RDD的角度来看Spark内部原理

  - 上篇博客主要讲了Spark的执行流程,看完后应该是对Spark有一个整体的了解,对Spark各个组件的工作流程都应该是有一个很清晰的认识了。
本篇博客,笔者主要是继续接着“蜂巢内部分享”,从RDD的角度来看Spark的内部原理,包括以下内容:

  1. RDD为什么是Spark的核心概念
  2. 通过一个wordCount例子来看一看RDD
  3. RDD的管理与操作(算子)
  4. 常见的RDD操作有哪些(包括RDD的分类)
  5. RDD的依赖关系(DAG)
  6. RDD依赖关系的划分(stage)

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器