OWL--监控系统实战一平台概述
接下来的几篇博客是一个连续的部分,主要讲解OWL监控系统实战与二次开发
,OWL-是 TalkingData
推出的一款开源分布式监控系统。本篇是该系列的第一遍博客,将总体的介绍一下背景目的,好让读者有一个整体的概念:
该系列博客所设计到的代码也会开源出来,后面会贴出github地址
所以,在实战五和六中有一部分是伪代码(用// …… 省略)
一、目录
- OWL–监控系统实战一平台概述,讲解背景目的以及监控平台概述
- OWL–监控系统实战二搭建梳理,整个环境搭建的梳理
- OWL–监控系统实战三源码阅读,OWL的介绍,一起来看看具体的源码
- OWL–监控系统实战四认识OpenTSDB,认识一下OpenTSDB
- OWL–监控系统实战五二次开发,Linux用户级别的Metrics收集
- OWL–监控系统实战六插件开发,插件收集Hadoop平台Metrics信息(做一个自己的Cloudera Manager)
- OWL–监控系统实战七上线运行,上线运行的事情,可以当作一个参考
二、背景以及目的
最近有幸参与到公司的数据服务平台
,负责开发数据服务平台的监控和运维这一块。为什么需要监控?简单来讲就是为了系统可控,实时数据一目了然,异常预警、准确定位。
宜人蜂巢 于2013年由李善任先生(人称麦哥或Michael),在宜人贷内部组建团队并成功孵化的项目。通过8大维度:金融、电商、社交、保险、社保、行为、位置等约20种数据源,千余维度特征,亿级关系网络等,帮助企业做出更明智的信贷决策,以扩大公平和透明信贷的可用性。目前查询量超过6000万次,体验用户超过3000万,集群规模上千台,YARN集群每天调度近十万离线作业和实时任务;通过宜人蜂巢科技平台的促成的放款额已突破1200亿。宜人蜂巢是领先的,智能的、数据科学驱动的互联网风控科技平台,通过最领先科技与大数据的智能技术准确预测借款人的信用、偿还能力;并实别欺诈、助力贷后风险管理等;从而将公平的信用扩展到更多的人。
- 下面简单介绍一下这个数据服务平台:
数据服务平台,就是一个多租户容器化的一站式开发运维数据知识平台,包括了权限控制
、资源划分隔离
、元数据管理
、执行引擎(Spark\Flink\MR\HBase\等)
、集群运维监控
等。 - 开发这个平台的目的是什么?
- 提高业务分析师获取数据,以及分析效率
- 提高数据清洗/数据质量验证效率
- 解决集群运维监控的统一管理
- 支持不同场景下的计算需求等
三、监控平台
本系列的主角终于登场了,监控运维平台!主要包括三个部分:
集群节点监控
、集群服务监控
、集群配置管理
集群节点监控
:包括了CUP使用率,磁盘IO,网络IO,内存等指标,可按用户,分组汇总显示,时序查询集群服务监控
:包括了HDFS、Yarn、HBase、Zookeeper、Spark等等(类是于Cloudera Manager监控的服务)集群配置管理
:包括了服务的滚动重启,节点添加下线,预警等。
本系列博主重点讲解,
集群节点监控
和集群服务监控
。然后考虑到查询速度,数据存储,自定义开发等原因选择了OWL分布式开源监控软件,在它基础上做了一些扩展。- 选择OWL主要是因为以它下几个特点:
- Go语言开发,部署简单,并发性好
- 自带web管理界面,能灵活的自定义图表
- 数据底层存储在HBase,查询效率高,加上已有的HBase集群
- 分布式,支持多机房 、开源
- 完善的预警系统(报警算法、报警渠道,邮件、微信、短信)
- 扩展性好,方便二次开发,支持插件开发