个人介绍
1.在云原生、DevOps、AI Infra、MLOps 方面有相关工程经验,了解大模型
2.熟悉 Kubernetes 工作原理,有基于复杂业务场景的二次开发经验
3.熟练掌握 Python Go 语言,具有分布式微服务架构和高并发高可用系统研发经验
4.IaaS、PaaS 多云混合云场景落地经验,通过阿里云 ACE、ACP 认证
工作经历
2021-04-30 -至今iotexpython开发
研发 AI 作业管理平台 基于 Kubeflow 研发 AI 作业全生命周期产品,包括 MLOps Pipeline 、数据特征工程、制品元数据管理、模型训练及推理功能。
2018-09-01 -2021-04-30埃森哲golang开发
研发多云场景PaaS平台 基于 Openshift、ACK 及自建K8S多云混合云场景、完成应用容器化、服务治理可观测、GitOps 持续交付
教育经历
2014-09-01 - 2018-06-30郑州大学电子商务本科
技能
①为研发团队提供基于阿里云的研发效能领域解决方案,包括需求管理、项目管理、持续交付、测试管理、环境配置等方面。 ②主导 DevOps 项目的建设和规划,明确项目演进路线和推广计划,对研发团队整体软件工程效能和质量负责。 ③负责建立研发团队软件工程效能研发、度量和管理体系,逐步实现可度量、可管理、可改进的 DevOps 体系。 ④负责平台架构设计实施,应用部署方案设计输出,项目实施全周期管理,人员管理、跨部门组织协同、客户培训验收等。 MTTR 恢复时间由数天降低为1小时内;变更失败率:生产环境应用程序部署回滚的百分比由原来60%降低为15%; SLA 可用性:软件产品和服务可用性的能力提升约 3.5 倍。
1.在云原生、DevOps、AI Infra、MLOps 方面有相关工程经验,了解大模型 2.熟悉 Kubernetes 工作原理,有基于复杂业务场景的二次开发经验 3.熟练掌握 Python Go 语言,具有分布式微服务架构和高并发高可用系统研发经验 4.IaaS、PaaS 多云混合云场景落地经验,通过阿里云 ACE、ACP 认证
1.基于 Kubeflow 研发 AI 作业全生命周期产品,包括 MLOps Pipeline 、数据特征工程、制品元数据管理、模型训练及推理功能。 2.基础设施层面 GPU 算力共享、RDMA 拓扑感知、Fluid 对象存储加速、Volcano 多场景调度、AI 作业训练推理性能优化。 3.基于Ray、DeepSpeed分布式训练及推理工程实践实现大模型业务场景私有知识库、智能对话的产品功能。 4.打通 IoT 边缘计算集群 云端 基于 Python Web框架 KubeEdge 开发管理边缘计算节点、应用及设备,边缘路由、AI 模型及数据等功能。 边缘端 基于 Python TensorFlow 开发 AI 应用代码编译发布升级、数据上报、模型训练升级等功能。