0
点赞
收藏
分享

微信扫一扫

【云原生】Nacos 监控手册


Nacos 0.8.0版本完善了监控系统,支持通过暴露metrics数据接入第三方监控系统监控Nacos运行状态,目前支持prometheus、elastic search和influxdb,下面结合prometheus和grafana如何监控Nacos,官网grafana监控页面

搭建Nacos集群暴露metrics数据

按照部署文档搭建好Nacos集群(具体可参考之前的博客)

配置application.properties文件,暴露metrics数据

management.endpoints.web.exposure.include=*

访问{ip}:8848/nacos/actuator/prometheus,看是否能访问到metrics数据

搭建prometheus采集Nacos metrics数据

下载你想安装的prometheus版本,地址为download prometheus

linux & mac

解压prometheus压缩包

tar xvfz prometheus-*.tar.gz
cd prometheus-*

修改配置文件prometheus.yml采集Nacos metrics数据

metrics_path: '/nacos/actuator/prometheus'
    static_configs:
      - targets: ['{ip1}:8848','{ip2}:8848','{ip3}:8848']

启动prometheus服务

./prometheus --config.file="prometheus.yml"

windows

下载对应的windows版本并解压

修改配置文件prometheus.yml采集Nacos metrics数据

metrics_path: '/nacos/actuator/prometheus'
    static_configs:
      - targets: ['{ip1}:8848','{ip2}:8848','{ip3}:8848']

启动prometheus服务

prometheus.exe --config.file=prometheus.yml

通过访问http://{ip}:9090/graph可以看到prometheus的采集数据,在搜索栏搜索nacos_monitor可以搜索到Nacos数据说明采集数据成功 

【云原生】Nacos 监控手册_配置文件

搭建grafana图形化展示metrics数据

和prometheus在同一台机器上安装grafana,使用 yum 安装grafana

mac

brew install grafana
brew services start grafana

linux

sudo yum install https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana-5.2.4-1.x86_64.rpm
sudo service grafana-server start

windows

参考文档:Install on Windows | Grafana documentation

访问grafana: http://{ip}:3000

配置prometheus数据源 

【云原生】Nacos 监控手册_开发语言_02

导入Nacos grafana监控模版 

【云原生】Nacos 监控手册_数据_03

Nacos监控分为三个模块:

  • nacos monitor展示核心监控项 
  • nacos detail展示指标的变化曲线 
  • nacos alert为告警项 

配置grafana告警

当Nacos运行出现问题时,需要grafana告警通知相关负责人。grafana支持多种告警方式,常用的有邮件,钉钉和webhook方式

钉钉告警

钉钉可以通过配置钉钉机器人 

【云原生】Nacos 监控手册_运维_04

配置钉钉通知url 

【云原生】Nacos 监控手册_开发语言_05

测试告警项 

【云原生】Nacos 监控手册_开发语言_06

邮件告警

修改defaults.ini配置文件,增加邮件告警

#################################### SMTP / Emailing ##########################
[smtp]
enabled = true
host = smtp.126.com:25
user = xxxxxx
password = xxxxx
;cert_file =
;key_file =
skip_verify = true
from_address = xxxxxx@126.com

[emails]
;welcome_email_on_sign_up = false

配置通知邮箱 

【云原生】Nacos 监控手册_数据_07

Nacos metrics含义

jvm metrics

指标

含义

system_cpu_usage

CPU使用率

system_load_average_1m

load

jvm_memory_used_bytes

内存使用字节,包含各种内存区

jvm_memory_max_bytes

内存最大字节,包含各种内存区

jvm_gc_pause_seconds_count

gc次数,包含各种gc

jvm_gc_pause_seconds_sum

gc耗时,包含各种gc

jvm_threads_daemon

线程数

Nacos 监控指标

指标

含义

http_server_requests_seconds_count

http请求次数,包括多种(url,方法,code)

http_server_requests_seconds_sum

http请求总耗时,包括多种(url,方法,code)

nacos_timer_seconds_sum

Nacos config水平通知耗时

nacos_timer_seconds_count

Nacos config水平通知次数

nacos_monitor{name='longPolling'}

Nacos config长连接数

nacos_monitor{name='configCount'}

Nacos config配置个数

nacos_monitor{name='dumpTask'}

Nacos config配置落盘任务堆积数

nacos_monitor{name='notifyTask'}

Nacos config配置水平通知任务堆积数

nacos_monitor{name='getConfig'}

Nacos config读配置统计数

nacos_monitor{name='publish'}

Nacos config写配置统计数

nacos_monitor{name='ipCount'}

Nacos naming ip个数

nacos_monitor{name='domCount'}

Nacos naming域名个数(1.x 版本)

nacos_monitor{name='serviceCount'}

Nacos naming域名个数(2.x 版本)

nacos_monitor{name='failedPush'}

Nacos naming推送失败数

nacos_monitor{name='avgPushCost'}

Nacos naming平均推送耗时

nacos_monitor{name='leaderStatus'}

Nacos naming角色状态

nacos_monitor{name='maxPushCost'}

Nacos naming最大推送耗时

nacos_monitor{name='mysqlhealthCheck'}

Nacos naming mysql健康检查次数

nacos_monitor{name='httpHealthCheck'}

Nacos naming http健康检查次数

nacos_monitor{name='tcpHealthCheck'}

Nacos naming tcp健康检查次数

nacos 异常指标

指标

含义

nacos_exception_total{name='db'}

数据库异常

nacos_exception_total{name='configNotify'}

Nacos config水平通知失败

nacos_exception_total{name='unhealth'}

Nacos config server之间健康检查异常

nacos_exception_total{name='disk'}

Nacos naming写磁盘异常

nacos_exception_total{name='leaderSendBeatFailed'}

Nacos naming leader发送心跳异常

nacos_exception_total{name='illegalArgument'}

请求参数不合法

nacos_exception_total{name='nacos'}

Nacos请求响应内部错误异常(读写失败,没权限,参数错误)

client metrics

指标

含义

nacos_monitor{name='subServiceCount'}

订阅的服务数

nacos_monitor{name='pubServiceCount'}

发布的服务数

nacos_monitor{name='configListenSize'}

监听的配置数

nacos_client_request_seconds_count

请求的次数,包括多种(url,方法,code)

nacos_client_request_seconds_sum

请求的总耗时,包括多种(url,方法,code)

Nacos-Sync监控

随着Nacos 0.9版本发布,Nacos-Sync 0.3版本支持了metrics监控,能通过metrics数据观察Nacos-Sync服务的运行状态,提升了Nacos-Sync的在生产环境的监控能力。 整体的监控体系的搭建参考Nacos监控手册

grafana监控Nacos-Sync

和Nacos监控一样,Nacos-Sync也提供了监控模版,导入监控模版

Nacos-Sync监控同样也分为三个模块:

  • nacos-sync monitor展示核心监控项 
  • nacos-sync detail和alert展示监控曲线和告警 

Nacos-Sync metrics含义

Nacos-Sync的metrics分为jvm层和应用层

jvm metrics

指标

含义

system_cpu_usage

CPU使用率

system_load_average_1m

load

jvm_memory_used_bytes

内存使用字节,包含各种内存区

jvm_memory_max_bytes

内存最大字节,包含各种内存区

jvm_gc_pause_seconds_count

gc次数,包含各种gc

jvm_gc_pause_seconds_sum

gc耗时,包含各种gc

jvm_threads_daemon

线程数

应用层 metrics

指标

含义

nacosSync_task_size

同步任务数

nacosSync_cluster_size

集群数

nacosSync_add_task_rt

同步任务执行耗时

nacosSync_delete_task_rt

删除任务耗时

nacosSync_dispatcher_task

从数据库中分发任务

nacosSync_sync_task_error

所有同步执行时的异常

举报

相关推荐

0 条评论