官方介绍
监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题。监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择。当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案。之后,随着业务规模的持续快速增长,监控的对象也越来越多,越来越复杂,监控系统的使用对象也从最初少数的几个SRE,扩大为更多的DEVS,SRE。这时候,监控系统的容量和用户的“使用效率”成了最为突出的问题。
监控系统业界有很多杰出的开源监控系统。我们在早期,一直在用zabbix,不过随着业务的快速发展,以及互联网公司特有的一些需求,现有的开源的监控系统在性能、扩展性、和用户的使用效率方面,已经无法支撑了。
因此,我们在过去的一年里,从互联网公司的一些需求出发,从各位SRE、SA、DEVS的使用经验和反馈出发,结合业界的一些大的互联网公司做监控,用监控的一些思考出发,设计开发了小米的监控系统:Open-Falcon。
特点:
数据采集免配置:agent自发现、支持Plugin、主动推送模式
容量水平扩展:生产环境每秒50万次数据收集、告警、存储、绘图,可持续水平扩展。
告警策略自发现:Web界面、支持策略模板、模板继承和覆盖、多种告警方式、支持回调动作。
告警设置人性化:支持最大告警次数、告警级别设置、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期,支持告警合并。
历史数据高效查询:秒级返回上百个指标一年的历史数据。
Dashboard人性化:多维度的数据展示,用户自定义Dashboard等功能。
架构设计高可用:整个系统无核心单点,易运维,易部署
架构图:
官网架构图
其中虚线所在的aggregator组件还在设计开发阶段。
网友画的
监控指标
每台服务器,都有安装falcon-agent,falcon-agent是一个golang开发的daemon程序,用于自发现的采集单机的各种数据和指标,这些指标包括不限于以下几个方面,共计200多项指标。
- CPU相关
- 磁盘相关
- IO
- Load
- 内存相关
- 网络相关
- 端口存活、进程存活
- ntp offset(插件)
- 某个进程资源消耗(插件)
- netstat、ss 等相关统计项采集
- 机器内核配置参数
只要安装了falcon-agent的机器,就会自动开始采集各项指标,主动上报,不需要用户在server做任何配置(这和zabbix有很大的不同),这样做的好处,就是用户维护方便,覆盖率高。当然这样做也会server端造成较大的压力,不过open-falcon的服务端组件单机性能足够高,同时都可以水平扩展,所以自动多采集足够多的数据,反而是一件好事情,对于SRE和DEV来讲,事后追查问题,不再是难题。
另外,falcon-agent提供了一个proxy-gateway,用户可以方便的通过http接口,push数据到本机的gateway,gateway会帮忙高效率的转发到server端。
falcon-agent,可以在我们的github上找到 : https://github.com/open-falcon/agent
数据流程图:
安装准备
系统环境:centos7.6
1 | #源更新 |
安装一些系统常用软件
1 | yum -y install gcc gcc-c++ autoconf libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel libxml2 libxml2-devel zlib zlib-devel glibc glibc-devel glib2 glib2-devel bzip2 bzip2-devel zip unzip ncurses ncurses-devel curl curl-devel e2fsprogs e2fsprogs-devel krb5-devel libidn libidn-devel openssl openssh openssl-devel libxslt-devel libevent-devel ntp libtool-ltdl bison libtool vim-enhanced python wget lsof iptraf strace lrzsz kernel-devel kernel-headers pam-devel Tcl/Tk cmake ncurses-devel bison setuptool popt-devel net-snmp screen perl-devel pcre-devel net-snmp screen tcpdump rsync sysstat man iptables sudo idconfig git system-config-network-tui bind-utils update arpscan tmux elinks numactl iftop bwm-ng |
安装pip
1 | wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate |
安装数据库
1 | wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm |
安装redis
1 | yum install redis |
安装go环境(若使用编译好的二进制文件,此步骤可忽略)
1 | yum install golang |
初始化数据库
1 | mkdir /opt/openfalcon |
下载编译好的组件
1 | mkdir /opt/openfalcon/tmp |
开始安装
第一部分:绘图组件安装
组件列表:
组件名称 | 用途 | 服务端口 | 备注 |
---|---|---|---|
Agent | 部署在目标机器采集机器监控项 | http: 1988 | |
Transfer | 数据接收端,转发数据到后端Graph和Judge | http: 6060 rpc: 8433 socket: 4444 | |
Graph | 操作rrd文件存储监控数据 | http: 6070 rpc: 6071 | 1.可部署多实例做集群 2.需要连接数据库graph |
Query | 查询各个Graph数据,提供统一http查询接口 | http: 9966 | |
Dashboard | 查询监控历史趋势图的web端 | http: 8081 | 1.需要python虚拟环境 2.需要连接数据库dashborad、graph |
Task | 负责一些定时任务,索引全量更新、垃圾索引清理、自身组件监控等 | http: 8002 | 1.需要连接数据库graph |
安装Agent
agent用于采集机器负载监控指标,比如cpu.idle、load.1min、disk.io.util等等,每隔60秒push给Transfer。agent与Transfer建立了长连接,数据发送速度比较快,agent提供了一个http接口/v1/push用于接收用户手工push的一些数据,然后通过长连接迅速转发给Transfer。
每台机器上,都需要部署agent。修改配置并启动
1 | cd/opt/openfalcon/agent/ |
安装Transfer
transfer默认监听在:8433端口上,agent会通过jsonrpc的方式来push数据上来。
1 | cd /opt/openfalcon/transfer/ |
安装Graph
graph组件是存储绘图数据、历史数据的组件。transfer会把接收到的数据,转发给graph。
#创建存储数据目录
mkdir -p /opt/openfalcon/data/6070
1 | cd /opt/openfalcon/graph/ |
安装Query
query组件,绘图数据的查询接口,query组件收到用户的查询请求后,会从后端的多个graph,查询相应的数据,聚合后,再返回给用户。
1 | cd/opt/openfalcon/query/ |
安装Dashboard
dashboard是面向用户的查询界面,在这里,用户可以看到push到graph中的所有数据,并查看其趋势图。
1 | #安装依赖和虚拟环境 |
安装Task
task是监控系统一个必要的辅助模块。定时任务,实现了如下几个功能:
index更新。包括图表索引的全量更新 和 垃圾索引清理。
falcon服务组件的自身状态数据采集。定时任务了采集了transfer、graph、task这三个服务的内部状态数据。
falcon自检控任务。
1
2
3
4
5
6
7
8
9
10
11cd /opt/openfalcon/task
# #修改配置, 配置项含义见下文
mv cfg.example.json cfg.json
# 默认情况下(所有组件都在同一台服务器上),保持cfg.json不变即可
# cfg.json中的各配置项,可以参考 https://github.com/open-falcon/query/blob/master/README.md
# 启动服务
./control start
# 校验服务,这里假定服务开启了8002的http监听端口。检验结果为ok表明服务正常启动。
curl -s "127.0.0.1:8002/health"
第二部分:报警组件安装
组件列表:
组件名称 | 用途 | 服务端口 | 备注 |
---|---|---|---|
Sender | 报警发送模块,控制并发度,提供发送的缓冲queue | http: 6066 | |
UIC(fe) | 用户组管理,单点登录 | http: 80 | 1.需要连接数据库:uic |
Portal | 配置报警策略,管理机器分组的web端 | http: 5050 | 1.需要连接数据库:falcon_portal 2.需要python虚拟环境 |
HBS | HeartBeat Server,心跳服务器 | http: 6031rpc: 6030 | 1.需要连接数据库:falcon_portal |
Judge | 报警判断模块 | http: 6081 rpc: 6080 | 1.可部署多实例 |
Links | 报警合并依赖的web端,存放报警详情 | http: 5090 | 1.需要连接数据库:falcon_links 2.需要python虚拟环境 |
Alarm | 报警事件处理器 | http: 9912 | |
mail-provider | 报警邮件http api | http: 4000 | 小米提供 |
sms-provider | 报警短信http api | http: 4040 | 自行编写 |
Nodata | 检测监控数据的上报异常 | http: 6090 | 1.需要连接数据库:falcon_portal |
Aggregator | 集群聚合模块——聚合某集群下的所有机器的某个指标的值,提供一种集群视角的监控体验。 |
报警准备:mail-provider & sms-provider
监控系统产生报警事件之后需要发送报警邮件或者报警短信,各个公司可能有自己的邮件服务器,有自己的邮件发送方法;有自己的短信通道,有自己的短信发送方法。falcon为了适配各个公司,在接入方案上做了一个规范,需要各公司提供http的短信和邮件发送接口。
短信发送http接口:
1 | method: post |
falcon将这样调用该接口:
1 | url=您公司提供的http短信接口 |
邮件发送http接口:
1 | method: post |
falcon将这样调用该接口:
1 | url=您公司提供的http邮件接口 |
安装使用mail-provider
这里使用小米提供的mail-provider,我是通过网友编译好的二级制包安装的,也可自行编译。
github地址: https://github.com/open-falcon/mail-provider
1 | git clone https://github.com/open-falcon/mail-provider |
建立sms-provider
这里我自己写了个基于python的http server 作为短信接口http api
vim http_sms.py
1 | #coding=utf-8 |
1 | #运行python http server |
安装alarm
alarm模块是处理报警event的,judge产生的报警event写入redis,alarm从redis读取,这个模块被业务搞得很糟乱,各个公司可以根据自己公司的需求重写
1 | cd /opt/openfalcon/alarm/ |
微信告警版本可到我的github拉取
1 | git clone https://github.com/chensambb/open-falcon-alarm-by-weixin/ |
安装sender
调用各个公司提供的mail-provider和sms-provider,按照某个并发度,从redis中读取邮件、短信并发送,alarm生成的报警短信和报警邮件都是直接写入redis即可,sender来发送。
1 | cd /opt/openfalcon/sender/ |
安装fe
1 | cd /opt/openfalcon/fe |
安装portal
portal是用于配置报警策略的地方
1 | yum install -y python-virtualenv # run as root |
安装HBS(heartbeat Server)
心跳服务器,只依赖Portal的DB
1 | cd /opt/openfalcon/hbs/ |
如果先安装的绘图组件又来安装报警组件,那应该已经安装过agent了,hbs启动之后会监听一个http端口,一个rpc端口,agent要和hbs通信,重新去修改agent的配置cfg.json,把heartbeat那项enabled设置为true,并配置上hbs的rpc地址,./control restart
重启agent,之后agent就可以和hbs心跳了
安装judge
报警判断模块,judge依赖于HBS,所以得先搭建HBS
1 | cd /opt/openfalcon/judge/ |
安装Links
Links是为报警合并功能写的组件。如果你不想使用报警合并功能,这个组件是无需安装的。
Links个Python的项目,无需像Go的项目那样去做编译。不过Go的项目是静态编译的,编译好了之后二进制无依赖,拿到其他机器也可以跑起来,Python的项目就需要安装一些依赖库了。
1 | # 我们使用virtualenv来管理Python环境,yum安装需切到root账号 |
安装Nodata
nodata用于检测监控数据的上报异常。nodata和实时报警judge模块协同工作,过程为: 配置了nodata的采集项超时未上报数据,nodata生成一条默认的模拟数据;用户配置相应的报警策略,收到mock数据就产生报警。采集项上报异常检测,作为judge模块的一个必要补充,能够使judge的实时报警功能更加可靠、完善。
1 | cd /opt/openfalcon/nodata |
安装Aggregator
集群聚合模块。聚合某集群下的所有机器的某个指标的值,提供一种集群视角的监控体验。
1 | cd /opt/openfalcon/aggregator |
使用方法
参考官方book
查看监控数据
我们说agent只要部署到机器上,并且配置好了heartbeat和transfer就自动采集数据了,我们就可以去dashboard上面搜索监控数据查看了。dashboard是个web项目,浏览器访问之。左侧输入endpoint搜索,endpoint是什么?应该用什么搜索?对于agent采集的数据,endpoint都是机器名,去目标机器上执行hostname
,看到的输出就是endpoint,拿着hostname去搜索。
搜索到了吧?嗯,选中前面的复选框,点击“查看counter列表”,可以列出隶属于这个endpoint的counter,counter是什么?counter=${metric}/sorted(${tags})
假如我们要查看cpu.idle,在counter搜索框中输入cpu并回车。看到cpu.idle了吧,点击,会看到一个新页面,图表中就是这个机器的cpu.idle的近一小时数据了,想看更长时间的?右上角有个小三角,展开菜单,可以选择更长的时间跨度
配置报警策略
上节我们已经了解到如何查看监控数据了,如果数据达到阈值,比如cpu.idle太小的时候,我们应该如何配置告警呢?
falcon的报警接收人不是一个具体的手机号,也不是一个具体的邮箱,因为手机号、邮箱都是容易发生变化的,如果变化了去修改所有相关配置那就太麻烦了。我们把用户的联系信息维护在一个叫UIC(新用户推荐使用Go版本的UIC,即:falcon-fe项目)的系统里,以后如果要修改手机号、邮箱,只要在UIC中修改一次即可。报警接收人也不是单个的人,而是一个组(UIC中称为Team),比如falcon这个系统的任何组件出问题了,都应该发报警给falcon的运维和开发人员,发给falcon这个团队,这样一来,新员工入职只要加入falcon这个Team即可;员工离职,只要从falcon这个Team删掉即可。
浏览器访问UIC,如果启用了LDAP,那就用LDAP账号登陆,如果没有启用,那就注册一个或者找管理员帮忙开通。创建一个Team,名称姑且叫falcon,把自己加进去,待会用来做测试。
创建HostGroup
比如我们要对falcon-judge这个组件做端口监控,那首先创建一个HostGroup,把所有部署了falcon-judge这个模块的机器都塞进去,以后要扩容或下线机器的时候直接从这个HostGroup增删机器即可,报警策略会自动生效、失效。咱们为这个HostGroup取名为:sa.dev.falcon.judge,这个名称有讲究,sa是我们部门,dev是我们组,falcon是项目名,judge是组件名,传达出了很多信息,这样命名比较容易管理,推荐大家这么做。
在往组里加机器的时候如果报错,需要检查portal的数据库中host表,看里边是否有相关机器。那host表中的机器从哪里来呢?agent有个heartbeat(hbs)的配置,agent每分钟会发心跳给hbs,把自己的ip、hostname、agent version等信息告诉hbs,hbs负责写入host表。如果host表中没数据,需要检查这条链路是否通畅。
创建策略模板
portal最上面有个Templates链接,这就是策略模板管理的入口。我们进去之后创建一个模板,名称姑且也叫:sa.dev.falcon.judge,与HostGroup名称相同,在里边配置一个端口监控,通常进程监控有两种手段,一个是进程本身是否存活,一个是端口是否在监听,此处我们使用端口监控。
右上角那个加号按钮是用于增加策略的,一个模板中可以有多个策略,此处我们只添加了一个。下面可以配置报警接收人,此处填写的是falcon,这是之前在UIC中创建的Team。
将HostGroup与模板绑定
一个模板是可以绑定到多个HostGroup的,现在我们重新回到HostGroups页面,找到sa.dev.falcon.judge这个HostGroup,右侧有几个超链接,点击【templates】进入一个新页面,输入模板名称,绑定一下就行了。
补充
上面步骤做完了,也就配置完了。如果judge组件宕机,端口不再监听了,就会报警。不过大家不要为了测试报警效果,直接把judge组件给干掉了,因为judge本身就是负责判断报警的,把它干掉了,那就没法判断了……所以说falcon现在并不完善,没法用来监控本身的组件。为了测试,大家可以修改一下端口监控的策略配置,改成一个没有在监听的端口,这样就触发报警了。
上面的策略只是对falcon-judge做了端口监控,那如果我们要对falcon这个项目的所有机器加一些负载监控,应该如何做呢?
- 创建一个HostGroup:sa.dev.falcon,把所有falcon的机器都塞进去
- 创建一个模板:sa.dev.falcon.common,添加一些像cpu.idle,load.1min等策略
- 将sa.dev.falcon.common绑定到sa.dev.falcon这个HostGroup
附:sa.dev.falcon.common的配置样例
大家可能不知道各个指标分别叫什么,自己push的数据肯定知道自己的metric了,agent push的数据可以参考:https://github.com/open-falcon/agent/tree/master/funcs
如何配置策略表达式
策略表达式,即expression,具体可以参考HostGroup与Tags设计理念,这里只是举个例子:
上例中的配置传达出的意思是:falcon-judge这个模块的所有实例,如果qps连续3次大于1000,就报警给falcon这个报警组。
expression无需绑定到HostGroup。