在日常工作中常常遇到很多问题,出现问题不可怕,可怕的是不知道问题出在哪里。当出现问题时,我们如无头苍蝇,无所适从,不知所措。这是因为我们的眼睛还不够犀利,没有洞察本质。常常会有疑问:服务的依赖关系是怎样的?当前线上各个服务的实时状态又是如何呢?访问卡顿是在哪个环节导致的呢?如何快速定位问题,并快速排除,恢复服务呢?如何去擦亮我们的眼睛,让服务可靠性达到5个9甚至6个9,7个9呢?
面对这些问题,我们找到了大众点评的Cat,有了Cat这些问题都可以迎刃而解!接下来我们将介绍Cat的简单使用。
参考
安装环境
- Linux 2.6以及之上(2.6内核才可以支持epoll),线上服务端部署请使用Linux环境,Mac以及Windows环境可以作为开发环境,美团点评内部CentOS 6.5
- Java 6,7,8,服务端推荐使用jdk7的版本,客户端jdk6、7、8都支持
- Maven 3及以上
- MySQL 5.6,5.7,更高版本MySQL都不建议使用,不清楚兼容性
- J2EE容器建议使用tomcat,建议使用推荐版本7..或8.0.*
- Hadoop环境可选,一般建议规模较小的公司直接使用磁盘模式,可以申请CAT服务端,500GB磁盘或者更大磁盘,这个磁盘挂载在/data/目录上
CAT组件
CAT主要由以下组件组成:
- cat-home: 服务端组件,负责收集监控信息,分析处理生成报告、执行告警
- cat-client: 客户端组件,负责与服务端进行连接通信,
- cat-core: 核心处理组件,负责具体的与客户端通信服务,解析数据、输出报告
- cat-consumer : 消费处理组件,负责实际的监控数据分析,处理工作
- cat-hadoop : HDFS存储组件
安装教程
步骤概览
- 初始化Mysql数据库,
一套CAT集群需要部署一个数据库
,数据库脚本script/CatApplication.sql - 准备若干台CAT服务器用于搭建集群,假设目前有IP为10.1.1.1,10.1.1.2,10.1.1.3的三台服务器,以下部署方式会以这些IP为例
- 初始化/data/目录,配置几个配置文件/data/appdatas/cat/*.xml 几个配置文件,具体下面有详细说明
打包并重命名为cat.war
,放入tomcat容器webapps根目录下,并启动tomcat- 修改服务器配置、及路由配置,重启tomcat
步骤1: 部署tomcat
调整启动参数,修改catalina.sh文件,建议在tomcat的bin下新建setenv.sh然后添加环境变量【服务端】
- 需要每台CAT集群10.1.1.1,10.1.1.2,10.1.1.3都进行部署
- 建议使用Cms Gc策略
- 建议cat的使用堆大小至少10G以上,开发环境启动2G堆启动即可
- 不希望使用软连接的同学,可以定义CAT_HOME为自定义目录。
1
2export CAT_HOME=/data/appdatas/cat/
CATALINA_OPTS="$CATALINA_OPTS -server -DCAT_HOME=$CAT_HOME -Djava.awt.headless=true -Xms25G -Xmx25G -XX:PermSize=256m -XX:MaxPermSize=256m -XX:NewSize=10144m -XX:MaxNewSize=10144m -XX:SurvivorRatio=10 -XX:+UseParNewGC -XX:ParallelGCThreads=4 -XX:MaxTenuringThreshold=13 -XX:+UseConcMarkSweepGC -XX:+DisableExplicitGC -XX:+UseCMSInitiatingOccupancyOnly -XX:+ScavengeBeforeFullGC -XX:+UseCMSCompactAtFullCollection -XX:+CMSParallelRemarkEnabled -XX:CMSFullGCsBeforeCompaction=9 -XX:CMSInitiatingOccupancyFraction=60 -XX:+CMSClassUnloadingEnabled -XX:SoftRefLRUPolicyMSPerMB=0 -XX:-ReduceInitialCardMarks -XX:+CMSPermGenSweepingEnabled -XX:CMSInitiatingPermOccupancyFraction=70 -XX:+ExplicitGCInvokesConcurrent -Djava.nio.channels.spi.SelectorProvider=sun.nio.ch.EPollSelectorProvider -Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCApplicationConcurrentTime -XX:+PrintHeapAtGC -Xloggc:/data/applogs/heap_trace.txt -XX:-HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/data/applogs/HeapDumpOnOutOfMemoryError -Djava.util.Arrays.useLegacyMergeSort=true"修改中文乱码 tomcat conf 目录下 server.xml
1
2
3<Connector port="8080" protocol="HTTP/1.1"
URIEncoding="utf-8" connectionTimeout="20000"
redirectPort="8443" /> <!-- 增加 URIEncoding="utf-8" -->
步骤2: 程序对于/data/目录具体读写权限(重要)
要求/data/目录能进行读写操作,如果/data/目录不能写,建议使用linux的软链接链接到一个固定可写的目录。所有的客户端集成程序的机器以及CAT服务端机器都需要进行这个权限初始化。(可以通过公司运维工具统一处理)
此目录会存一些CAT必要的配置文件以及运行时候的数据存储目录。
CAT支持CAT_HOME环境变量,可以通过JVM参数修改默认的路径。
1
2mkdir /data
chmod -R 777 /data/
步骤3: 创建客户端配置文件
$CAT_HOME/client.xml这里为/data/appdatas/cat/client.xml
说明
- 此配置文件的作用是所有的客户端都需要一个地址指向CAT的服务端
- 此文件可以通过运维统一进行部署和维护,比如使用puppet等运维工具
- 不同环境这份文件不一样,比如区分prod环境以及test环境,在美团点评内部一共是2套环境的CAT,一份是生产环境,一份是测试环境
- 注意:当路由错误,且该文件夹下存在client_cache.xml,请删除client_cache.xml,再重启服务
集群配置
以10.1.1.1,10.1.1.2,10.1.1.3三台CAT服务器为例:
1
2
3
4
5
6
7
8
<config mode="client">
<servers>
<server ip="10.1.1.1" port="2280" http-port="8080"/>
<server ip="10.1.1.2" port="2280" http-port="8080"/>
<server ip="10.1.1.3" port="2280" http-port="8080"/>
</servers>
</config>2280是默认的CAT服务端接受数据的端口,不允许修改,http-port是Tomcat启动的端口,默认是8080,建议使用默认端口
步骤4: 安装CAT的数据库
数据库的脚本文件 script/CatApplication.sql
1
mysql -uroot -Dcat < CatApplication.sql
MySQL的一个系统参数:
max_allowed_packet
,其默认值为1048576(1M),修改为1000M,修改完需要重启mysql说明:
- 注意1:
一套独立的CAT集群只需要一个数据库
(之前碰到过个别同学在每台cat的服务端节点都安装了一个数据库) - 注意2:
数据库编码使用utf8mb4,否则可能造成中文乱码等问题
- 注意1:
步骤5: 配置数据源
$CAT_HOME/datasources.xml
,这里是/data/appdatas/cat/datasources.xml
1 |
|
- 说明
- 此xml仅仅为模板,请根据自己实际的情况
替换jdbc.url,jdbc.user,jdbc.password的实际值
。 集群模式每台CAT集群10.1.1.1,10.1.1.2,10.1.1.3都需要部署此文件
- 此xml仅仅为模板,请根据自己实际的情况
步骤6: war打包
源码构建
- 在cat的源码目录,执行
mvn clean install -DskipTests
- 如果发现cat的war打包不通过,CAT所需要依赖jar都部署在 http://unidal.org/nexus/
- 可以配置这个公有云的仓库地址到本地Maven配置(一般为~/.m2/settings.xml),理论上不需要配置即可,可以参考cat的pom.xml配置:
1
2
3
4
5
6
7
8
9
10
11
12<repositories>
<repository>
<id>central</id>
<name>Maven2 Central Repository</name>
<layout>default</layout>
<url>http://repo1.maven.org/maven2</url>
</repository>
<repository>
<id>unidal.releases</id>
<url>http://unidal.org/nexus/content/repositories/releases/</url>
</repository>
</repositories>- 在cat的源码目录,执行
官方下载
如果自行打包仍然问题,请使用下面链接进行下载:
官方的cat的master版本,
重命名为cat.war进行部署,注意此war是用jdk8,服务端请使用jdk8版本
步骤7: war部署
- 将步骤6的war包部署到本机tomcat的webapps下,启动tomcat。
- Cat服务需要部署在tomcat下的/cat路径下,方式请自行搜索“tomcat contextPath配置”
- 打开控制台的URL,http://10.1.1.1:8080/cat/s/config?op=routerConfigUpdate
- 默认用户名:admin 默认密码:admin。CAT本身无登录和权限校验功能,请按需定制
- 更新配置示例如下:
1 |
|
- 重启10.1.1.1的机器的tomcat
- 将cat.war部署到10.1.1.2,10.1.1.3这两台机器中,启动tomcat
说明:
- 注意10.1.1.1,10.1.1.2,10.1.1.3这几个IP需要
替换为自己实际的IP
,修改路由配置仅仅需要修改一次即可,这部分数据会存入mysql中。 enable=false表示机器不可用,10.1.1.1机器不做为消费机集群。所有客户端上报的消息都由于10.1.1.2,10.1.1.3来处理
。- 更多服务端机器按需添加Xml配置即可。
步骤8: 服务端配置
配置链接:http://{ip:port}/cat/s/config?op=serverConfigUpdate
说明:这个只需要更新一次,配置是保存在mysql的数据库里面。
CAT节点职责
- 控制台 - 提供给业务人员进行数据查看【默认所有的cat节点都可以作为控制台,不可配置】
- 消费机 - 实时接收业务数据,实时处理,提供实时分析报表【默认所有的cat节点都可以作为消费机,不可配置】
- 告警端 - 启动告警线程,进行规则匹配,发送告警(目前仅支持单点部署)【可以配置】
- 任务机 - 做一些离线的任务,合并天、周、月等报表 【可以配置】
集群配置
线上做多集群部署,假设有10.1.1.1,10.1.1.2,10.1.1.3这三台机器
- 建议选取一台或多台机器负责角色有控制台、告警端、任务机,例如10.1.1.1。配置域名访问CAT,该域名关联至10.1.1.1
- 10.1.1.2,10.1.1.3 负责消费机处理,这样能做到有效隔离,任务机、告警等问题不影响实时数据处理
- remote-servers 这个一定要配置正确,端口号为8080,这里面的remote-servers为10.1.1.1:8080,10.1.1.2:8080,10.1.1.3:8080
- 完成以上步骤,重启下当前CAT节点
配置的sample如下: id=”default”是默认的配置信息,server id=”10.1.1.1” 如下的配置是表示10.1.1.1这台服务器的节点配置覆盖default的配置信息,比如下面的job-machine,alarm-machine,send-machine为true。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
<server-config>
<server id="default">
<properties>
<property name="local-mode" value="false"/>
<property name="job-machine" value="false"/>
<property name="send-machine" value="false"/>
<property name="alarm-machine" value="false"/>
<property name="hdfs-enabled" value="false"/>
<property name="remote-servers" value="10.1.1.1:8080,10.1.1.2:8080,10.1.1.3:8080"/>
</properties>
<storage local-base-dir="/data/appdatas/cat/bucket/" max-hdfs-storage-time="15" local-report-storage-time="7" local-logivew-storage-time="7">
<hdfs id="logview" max-size="128M" server-uri="hdfs://10.1.77.86/" base-dir="user/cat/logview"/>
<hdfs id="dump" max-size="128M" server-uri="hdfs://10.1.77.86/" base-dir="user/cat/dump"/>
<hdfs id="remote" max-size="128M" server-uri="hdfs://10.1.77.86/" base-dir="user/cat/remote"/>
</storage>
<consumer>
<long-config default-url-threshold="1000" default-sql-threshold="100" default-service-threshold="50">
<domain name="cat" url-threshold="500" sql-threshold="500"/>
<domain name="OpenPlatformWeb" url-threshold="100" sql-threshold="500"/>
</long-config>
</consumer>
</server>
<server id="10.1.1.1">
<properties>
<property name="job-machine" value="true"/>
<property name="alarm-machine" value="true"/>
<property name="send-machine" value="true"/>
</properties>
</server>
</server-config>配置说明:
请注意:当一个机器角色更改后,请重启该机器!
1 | server模型:代表一台机器的配置。如果id为default,代表默认配置;如果id为ip,代表该台服务器的配置 |
步骤9: 重启不影响数据可用性
1 | 单机模式部署可略过此步骤,线上环境使用建议配置。 |
- 请在tomcat重启之前调用当前tomcat的存储数据的链接 http://${ip}:8080/cat/r/home?op=checkpoint,重启之后数据会恢复。【注意重启时间在每小时的整点10-55分钟之间】
- 线上部署时候,建议把此链接调用存放于tomcat的stop脚本中,这样不需要每次手工调用
步骤10: 本地开发环境运行CAT
- 请参照上述步骤,进行如下配置:
- 配置/data/appdatas/cat/client.xml文件
- 配置/data/appdatas/cat/datasources.xml文件
- 服务器配置 http://{ip:port}/cat/s/config?op=serverConfigUpdate (注意本地节点的角色,job-machine&alarm-machine都可以配置为true,以便于debug)
- 根据ide的类型,在cat目录中执行 mvn eclipse:eclipse 或者 mvn idea:idea,此步骤会生成一些代码文件,直接导入到工程会发现找不到类
- 如果ide是eclipse,将源码以普通项目到入eclipse中,注意不要以maven项目导入工程
- 启动方式:
- Intellij IDEA 推荐使用tomcat插件启动cat-home模块,application context设置为/cat。
- Tomcat启动:打成war包,将war包部署在Tomcat后,启动Tomcat
- test case启动:运行com.dianping.cat.TestServer 这个类,即可启动cat服务器;注意:执行的是startWebApp()这个test case