获取主机 IP 地址:
使用 hostname -i 获取当前主机的 IP 地址,用于后续监控数据的获取。
监控 etcd 日志中的错误数量:
通过 grep 命令从 /var/log/messages 日志文件中查找与 etcd 相关的错误信息,并统计错误数量。
检查 etcd 集群的 put 和 get 操作状态:
使用 etcdctl 工具执行 put 和 get 操作,以确认 etcd 集群是否正常工作,并统计操作的执行结果。
获取并解析 etcd 的 Prometheus 指标:
使用 curl 命令从 etcd 的 /metrics 接口获取 Prometheus 格式的监控指标。
解析以下关键指标:
etcd_server_leader_changes_seen_total:主从变化次数
etcd_server_has_leader:主节点数
etcd_mvcc_db_total_size_in_bytes:etcd 存储使用空间,转换为 GB
process_resident_memory_bytes:etcd 使用的内存,转换为 GB
process_open