个人介绍
专业能力:4年+运维工作经验。熟悉系统软件结构及行业规范;具备系统部署、监控告警、故障响应、灾备预防等运维专业能力;
代码能力:熟悉python,经常用python做一些小工具
AI能力:日常学习了解AI新技术、自己用llama-index完成AI知识库搭建、最近在研究使用工作流
工作经历
2021-07-20 -2023-11-30慧择运维已认证
1、日常运维工作支持。系统部署发布、监控告警处理、故障响应、攻防安全演练、服务器维护迁移等日常运维工作。 2、独立负责公司监控告警部分。监控包括:基础设施、k8s 应用、web 网站、网络、apm 链路等。 3、协助运维管理、运维平台建设。ITIL 理论管理平台落地,实现事件、问题、故障、服务请求的系统平台落地,2022 年 系统 SLO 指标达到 99.99%.。管理制度编写《慧择信息系统维护管理办法》、《慧择变更管理操作细则》 主要工作成果: 1、 完善运维监控体系。(内核日志监控、阿里 CDN 监控、用 python 写定制 promethuse exporter 监控) 物理机内核日志监控告警:物理机故障通常影响几十台虚拟机,具有高风险性。通过使用 dmesg 相关的内核命令,标准化输出内核日志,通过 ELK 集群进行归集日志到 es 中,通过 ealsticalert 进行关键错误日志告警。 2、 独立负责公司 kafka、elasticsearch 集群的管理。(集群数量超过 15 个,最大集群日存储量超过 2T) Elasticsearch 集群
教育经历
2014-09-01 - 2018-06-01西南大学信息管理与信息系统本科已认证