基于 Thanos 架构下的多集群 Prometheus 监控系统

我要开发同款
JimmyMiao2024年04月02日
74阅读
开发技术falcon prometheus、k8s、监控、自动化运维、服务器运维
所属分类监控告警、thanos、prometheus

作品详情

项目介绍:
该监控系统可以横跨多个 prometheus 集群进行监控,且支持对多个集群的数据进行查询和聚合。存储方面支持长期存储,可将 prometheus 数据存储到廉价的对象存储中,且监控数据通过多副本保证高可用。通过 k8s endpoint s以及 consul 实现监控目标自动发现。告警则接入飞书机器人实现基于命名空间的告警到人。
工作内容:
1. 整体技术架构选型及部署实施;
2. 使用 Go 开发 node controller,在节点频繁变更下,实现 kubelet endpoints 的自动更新;
3. 配置 hashmod 解决 prometheus 无法支撑单个大集群以及多副本 prometheus 重复拉取指标的问题;
4. 使用 Go 开发 alertmanager webhook ,并基于飞书机器人配置自动重载;
5. 编写 alertmannager 和 thanso ruler 告警规则以及 prometheus record 优化查询语句。
项目成果:
1. 解决多套集群部署多套监控系统的问题,节约计算资源以及人力维护成本;
2. 实现 k8s 集群内外部监控 target 自动发现,无硬编码 target;
3. 保证了大体量集群下 prometheus 的高可用,以及数据的完整性;
4. 告警直到相关责任人,推进问题响应速度。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论