基于prometheus和grafana,对基础设施容器平台进行监控,集群规模30+,通过集群联邦的方式对数据进行聚合,提高了可视化和集群的稳定以及数据安全,对于容器的内存,cpu,qps,k8s各组件的健康皆有监控,同时对java业务的堆栈信息也有监控,常见的fullgc等问题能及时发现
评论