OWL--监控系统实战一平台概述

  接下来的几篇博客是一个连续的部分,主要讲解OWL监控系统实战与二次开发OWL-是 TalkingData 推出的一款开源分布式监控系统。本篇是该系列的第一遍博客,将总体的介绍一下背景目的,好让读者有一个整体的概念:

该系列博客所设计到的代码也会开源出来,后面会贴出github地址
所以,在实战五和六中有一部分是伪代码(用// …… 省略)

一、目录

  1. OWL–监控系统实战一平台概述,讲解背景目的以及监控平台概述
  2. OWL–监控系统实战二搭建梳理,整个环境搭建的梳理
  3. OWL–监控系统实战三源码阅读,OWL的介绍,一起来看看具体的源码
  4. OWL–监控系统实战四认识OpenTSDB,认识一下OpenTSDB
  5. OWL–监控系统实战五二次开发,Linux用户级别的Metrics收集
  6. OWL–监控系统实战六插件开发,插件收集Hadoop平台Metrics信息(做一个自己的Cloudera Manager)
  7. OWL–监控系统实战七上线运行,上线运行的事情,可以当作一个参考

二、背景以及目的

  最近有幸参与到公司的数据服务平台,负责开发数据服务平台的监控和运维这一块。

  1. 下面简单介绍一下这个数据服务平台:
    数据服务平台,就是一个多租户容器化的一站式开发运维数据知识平台,包括了权限控制资源划分隔离元数据管理执行引擎(Spark\Flink\MR\HBase\等)集群运维监控等。

  2. 开发这个平台的目的是什么?

    • 提高业务分析师获取数据,以及分析效率
    • 提高数据清洗/数据质量验证效率
    • 解决集群运维监控的统一管理
    • 支持不同场景下的计算需求等

三、监控平台

  1. 本系列的主角终于登场了,监控运维平台!主要包括三个部分:集群节点监控集群服务监控集群配置管理

    • 集群节点监控:包括了CUP使用率,磁盘IO,网络IO,内存等指标,可按用户,分组汇总显示,时序查询
    • 集群服务监控:包括了HDFS、Yarn、HBase、Zookeeper、Spark等等(类是于Cloudera Manager监控的服务)
    • 集群配置管理:包括了服务的滚动重启,节点添加下线,预警等。
  2. 本系列博主重点讲解,集群节点监控集群服务监控。然后考虑到查询速度,数据存储,自定义开发等原因选择了OWL分布式开源监控软件,在它基础上做了一些扩展。

  3. 选择OWL主要是因为以它下几个特点
    • Go语言开发,部署简单,并发性好
    • 自带web管理界面,能灵活的自定义图表
    • 数据底层存储在HBase,查询效率高,加上已有的HBase集群
    • 分布式,支持多机房 、开源
    • 完善的预警系统(报警算法、报警渠道,邮件、微信、短信)
    • 扩展性好,方便二次开发,支持插件开发

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器