工作经历
2021-03-03 -至今腾讯云(西安)有限责任公司运维开发
【AIOps 工具建设】 tke(k8s)集群故障诊断工具(agent+k8sgpt+llm) SRE 告警诊断机器人(chatops+agent) 【Publish 容器发布变更平台建设】 具备发布、回滚、后置检查、熔断、通知等功能 承载了 2w+ 现网 tke 集群的组件发布需求 【混沌工程】 负责 TKE 产品整体的运维容灾架构梳理、容灾能力建设、应急预案建设、故障大盘建设、演习能力建设(chaosblade)、演习拉通、问题跟踪闭环等 【腾讯云 tke-serverless 产品技术运营】 负责 tke-serverless 的质量运营、容器化迁移改造、流水线建设、监控告警能力建设、工单处理、新区交付等工作
教育经历
2011-09-01 - 2015-06-01西安理工大学计算机科学与技术本科
技能
【负责事项】 负责 TKE 产品上百个模块的运维容灾架构梳理、容灾能力建设、应急预案建设、故障大盘建设、演习能力建设(chaosblade)、演习拉通、问题跟踪闭环等。 【成绩】 最终达成目标:单 AZ 故障时 TKE 控制面核心功能自身 3min 内自愈; 2022年获腾讯云“混沌先锋奖”2 次。
【架构设计和各模块功能】 addon-manager:publish 平台的 http 后台模块,使用 Gin 框架,定义了 创建发布单、创建变更审批单、拉取集群列表、拉取组件列表、发布、回滚、变更分发等核心流程的API; addon-frontend:前端控制台; task-manager:publish 平台的实际变更动作下发模块,使用 k8s operator 框架,watch 集群的 task-crd资源,并执行变更、发布前检查、后置检查、发布调度动作; task-crd:包含了一次发布动作中所需要的信息(分批灰度、调度策略、发布通道信息); ops-center:publish 平台的资源注册模块,与组件管理中心底座kube-apiserver集成,提供相关 crd 自动管控能力,将所有集群相关的云上资源(cluster、nodepool、vpc、subnet、tps)全部 crd 化,由 ops-center 统一管理,并且实时 watch,调用 yunapi 完成资源生命周期管理; argo-cd:argo是开源的cd方案,以Application CRD的方式来抽象云原生应用。在组件进行Helm化后,可以无缝接入argo-cd,来实现自动化的变更动作。 【达成结果】 承载了 2w+ 现网 tke 用户集群的组件发布需求。