OWL--监控系统实战一平台概述

  接下来的几篇博客是一个连续的部分,主要讲解OWL监控系统实战与二次开发OWL-是 TalkingData 推出的一款开源分布式监控系统。本篇是该系列的第一遍博客,将总体的介绍一下背景目的,好让读者有一个整体的概念:

该系列博客所设计到的代码也会开源出来,后面会贴出github地址
所以,在实战五和六中有一部分是伪代码(用// …… 省略)

一、目录

  1. OWL–监控系统实战一平台概述,讲解背景目的以及监控平台概述
  2. OWL–监控系统实战二搭建梳理,整个环境搭建的梳理
  3. OWL–监控系统实战三源码阅读,OWL的介绍,一起来看看具体的源码
  4. OWL–监控系统实战四认识OpenTSDB,认识一下OpenTSDB
  5. OWL–监控系统实战五二次开发,Linux用户级别的Metrics收集
  6. OWL–监控系统实战六插件开发,插件收集Hadoop平台Metrics信息(做一个自己的Cloudera Manager)
  7. OWL–监控系统实战七上线运行,上线运行的事情,可以当作一个参考

二、背景以及目的

  最近有幸参与到公司的数据服务平台,负责开发数据服务平台的监控和运维这一块。为什么需要监控?简单来讲就是为了系统可控,实时数据一目了然,异常预警、准确定位。
  宜人蜂巢 于2013年由李善任先生(人称麦哥或Michael),在宜人贷内部组建团队并成功孵化的项目。通过8大维度:金融、电商、社交、保险、社保、行为、位置等约20种数据源,千余维度特征,亿级关系网络等,帮助企业做出更明智的信贷决策,以扩大公平和透明信贷的可用性。目前查询量超过6000万次,体验用户超过3000万,集群规模上千台,YARN集群每天调度近十万离线作业和实时任务;通过宜人蜂巢科技平台的促成的放款额已突破1200亿。宜人蜂巢是领先的,智能的、数据科学驱动的互联网风控科技平台,通过最领先科技与大数据的智能技术准确预测借款人的信用、偿还能力;并实别欺诈、助力贷后风险管理等;从而将公平的信用扩展到更多的人。

  1. 下面简单介绍一下这个数据服务平台:
    数据服务平台,就是一个多租户容器化的一站式开发运维数据知识平台,包括了权限控制资源划分隔离元数据管理执行引擎(Spark\Flink\MR\HBase\等)集群运维监控等。
  2. 开发这个平台的目的是什么?
    • 提高业务分析师获取数据,以及分析效率
    • 提高数据清洗/数据质量验证效率
    • 解决集群运维监控的统一管理
    • 支持不同场景下的计算需求等

三、监控平台

  1. 本系列的主角终于登场了,监控运维平台!主要包括三个部分:集群节点监控集群服务监控集群配置管理

    • 集群节点监控:包括了CUP使用率,磁盘IO,网络IO,内存等指标,可按用户,分组汇总显示,时序查询
    • 集群服务监控:包括了HDFS、Yarn、HBase、Zookeeper、Spark等等(类是于Cloudera Manager监控的服务)
    • 集群配置管理:包括了服务的滚动重启,节点添加下线,预警等。
  2. 本系列博主重点讲解,集群节点监控集群服务监控。然后考虑到查询速度,数据存储,自定义开发等原因选择了OWL分布式开源监控软件,在它基础上做了一些扩展。

  3. 选择OWL主要是因为以它下几个特点
    • Go语言开发,部署简单,并发性好
    • 自带web管理界面,能灵活的自定义图表
    • 数据底层存储在HBase,查询效率高,加上已有的HBase集群
    • 分布式,支持多机房 、开源
    • 完善的预警系统(报警算法、报警渠道,邮件、微信、短信)
    • 扩展性好,方便二次开发,支持插件开发

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器