个人介绍
您好!我叫刘帅,拥有五年的运维工程师工作经验。目前,我正在寻找一个能够发挥我技术能力和专业知识的运维工程师职位。
在过去的五年里,我专注于优化服务集群环境,提升系统的性能和稳定性。我负责过多云容器化编排的环境建设,包括腾讯云和阿里云的产品,以及基于 Kubernetes 的监控报警系统。通过使用 Prometheus, Grafana, 和 Alertmanager,我成功实现了跨平台的监控和告警管理,增强了系统的可用性和稳定性。
我还有丰富的经验在处理技术故障和升级维护,包括自动化 CI/CD 流程的实施和优化。例如,我主导了公司腾讯云 SaaS 平台的迁移工作,包括新生产环境的搭建、数据迁移同步以及生产流量的重定向。
工作经历
2021-04-30 -2024-04-30易云网信(北京)信息技术有限公司 运维工程师已认证
1.负责组建与优化服务集群环境; 2.负责相关软件系统的部署 ,监控相关服务 ,保障软件系统运行稳定; 3.负责跟踪软硬件升级与维护 ,配合开发团队进行系统定期升级; 4.负责定期编写安全事件分析报告; 5.协助公司进行技术决策 ,进行技术风险评估。
2019-06-02 -2021-04-30北京护航科技股份有限公司系统工程师已认证
1.利用监控平台 、工单平台实时监控平台系统的运行状态 2.发现告警 ,根据问题的类型 、严重程度及时协调处理 ,保证业务的稳定性和可用性 3.负责处理平台各类故障 ,快速定位并解决问题 ,无法解决的告警 ,立即派发工单至二线 ,配合二线工程师处理并完成相关记 录工作 4.结合平台运行情况 ,协助团队相关人员完成故障的处理工作 5.完善技术文档并完成领导交办的其他工作
教育经历
2013-09-01 - 2017-07-01河北科技学院计算机科学与技术本科
技能
监控目标: K8S生产集群和各种容器资源的使用情况。 • 主要工作: 搭建基于k8s的监控报警系 、告警模板编写 、告警通知机制 、告警规则编写 、Consul 批量注册。 • 负责告警模板编写: 确保告警模板清晰 、可读 ,并能够满足不同告警场景的需求。 • 负责告警通知机制: 基于 webhook 整合钉钉作为告警通知工具 ,负责接收告警通知并做应急响应。 • 负责告警规则编写: 定期审查和更新告警规则 ,确保其与应用的状态和性能要求保持一致; 如 :pod.rules 、svc.rules、 pvc.rules 、kubeadm.rules 等规则。 • 负责 Consul 批量注册脚本编写: 基于 consul 自动发现 node-exporter 监控过200+服务器
1 、新生产环境准备:基础集群组件新部署( k8s 、helm 、Ingress-nginx 、istio 、nfs-storage 、metrics-server 、kuboard- v3 ); 2 、 SpringCloud 业务组件新部署( mysql 、nacos 、redis) 2 、数据迁移和同步:对一百多个数据库进行迁移同步; 3 、 对原k8s上挂载的 pv 进行迁移 4 、 生产流量重新指向:对原k8s上的 ingress 进行全部迁移并且重新解析新的 slb 负载均衡进行新流量接入新环境