树有根
2小时前在线
全职 · 1500/日  ·  32625/月
工作时间: 工作日10:00-18:00工作地点: 远程
服务企业: 7家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

1: 精通pyhton shell脚本编程

2:熟悉python 爬虫相关内容

3:熟悉flask编程

4:通过flaks独立开发出一套餐饮管理系统

5:通过python编写股票价格实时获取代码并推送到飞书群,能够实时通过飞书群查看自己关心的股票实时价格信息

6:通过python编写爬取新闻联播信息内容到飞书群 方便每日查看新闻联播内容

7: 精通python shell脚本编程,擅长运维自动化,精通ansilbe, saltstack,terroform等批量化 自动化运维工具,熟悉gitlab cicd 各种流水线yaml文件编写和设计,熟悉gitlab cicd 和 gitlab runner等一整套gitlab 流水线技术栈。

8:熟悉terroform开源项目 可通过编写terroform脚本快速批量创建各种公有云资源以及管理公有云资源,极大提升云资源的创建效率。熟悉阿里云 腾讯云各种公有云资源的使用和监控体系的建立,以及各种公有云资源的成本监控

9: 熟悉prometheus grafana一套监控体系 能够独立完成各个系统的监控系统设计以及各种grafana展板设计

熟悉filebeat fluented kafka es kibana一套日志采集系统,能够独立完成日志采集系统选型设计以及各个索引切分规则,各种kibana展板设计。

10:熟悉flask框架,擅长通过flask框架独立开发后台服务,了解前端相关的技术知识点

11: 精通ansible playbook 脚本文件编写,能快速开发相关的ansible 脚本提升部署和运维效率。熟悉Python 脚本 shell脚本。()

12: 负责过腾讯企业IT部12个k8s私有集群(共1500+node节点 8000+ pod容器) 的规划,故障处理和性能优化工作,有大规模k8s集群的实际运维和故障处理经验,熟悉业务容器化的各个关键点和踩坑点,熟悉大规模k8s集群的优化方案和实际优化经验。

13: 负责元戎启行自建k8s集群运维搭建维护,非常熟悉k8s集群搭建开源项目kubespray的搭建部署流程和后续k8s组件的各种升级流程 可通过开源项目kubespray 快速搭建3master + 3etcd的高可用集群,以及后续k8s集群的批量升级等操作, 且熟悉开源项目kubespray中各种k8s集群相关优化参数配置,如etcd 独立部署,etcd event事件拆分, api-server同时处理请求参数优化,k8s证书自动更新优化,k8s节点内存软硬驱逐优化设置,k8s节点硬盘软硬驱逐阈值设置更新,k8s节点镜像自动清理相关参数优化等。(https://kubespray.io)

14: 负责元戎启行AI计算平台的搭建和维护工作,包括自建的4090 GPU集群(64台4090节点),阿里pai ai训练平台,曙光l20 ai训练平台。其中自建4090 gpu训练集群底层为开源的k8s平台 + 开源volcano调度器实现训练任务的调度(https://gitee.com/zhichneghe/volcano.git)。阿里pai ai训练平台包括了106台A30 10台A100,底层为开源k8s平台+阿里自研调度系统。曙光l20 ai训练平台底层为开源slurm系统(https://slurm.schedmd.com/)。

15:负责元戎启行所有gpu资源的运维工作 64台4090节点(8显卡单节点) + 32台 3090节点(8显卡单节点) + 106台A30节点(8显卡单节点) + 10台A100节点(8显卡单节点)+94台l20节点(8显卡单节点)。熟悉nvidia显卡原生调度插nvidia-plugin,非常熟悉vgpu开源项目 (https://github.com/4paradigm/k8s-vgpu-scheduler)能够使得单块nvidia显卡虚拟化出多张显卡 从而极大提高显卡的利用效率。(实测此开源项目 比阿里开源的gpushare方案 和腾讯开源的 gpu-manager更加好用 且bug更少 )

16: 熟悉argo 批处理任务平台部署运维,精通argo 批处理workflow 模版的编写和argo步骤的优化。(https://argoproj.github.io)熟悉gitlab runner的部署和运维以及gitlab runner各种参数的优化(https://docs.gitlab.com)



工作经历

  • 2019-01-01 -2024-08-08腾讯科技(深圳)有限公司高级运维工程师

    1: 负责iwiki系统业务运维工作,负责iwiki系统的初始化部署,iwiki系统容灾备份方案,iwiki系统的指标监控方案设计,iwiki系统的安全加固方案,iwiki系统的并发优化方案调整,iwiki系统故障恢复方案,以及iwiki各种变更流程的优化和实施. 2: 负责公司个人开发容器平台的基础运维工作,此容器平台共3个TKE集群,其中集群1共199个node节点 1819个pod,集群2共96个node节点 858个pod,集群3共16个node节点 59个pod, 集群1和集群2主要运行statefullset类型资源供公司员工申请个人开发容器,集群3主要运行job类型资源 运行公司蓝盾后台的CI CD流水线job任务。 3:负责NGN 办公接入 VPN SOC Freeradius Cert 企业云盘 mnet2.0 citrix snort ids itlogin 12个与安全相关的业务系统的基础运维工作,系统部署架构梳理,服务器基础环境的标准化配置梳理,业务系统基础环境的标准化配置梳理,安全加固相关的标准化配置梳理。

  • 2007-07-06 -2018-11-13华为技术有限公司 系统运维工程师

    1: 负责现场两套openstack云平台环境的维护工作,其中一套openstack云平台部署9套物理服务器,其上部署了37个虚机,另一套openstack云平台部署了46套物理服务器,其上运行了245个虚机;负责现场4套小型机网管服务器(SUN T4-1 , IBMP740)的维护; 负责现场两套分布式网管服务器(每套分布式系统有11套HP DL360刀片服务器)的维护工作。 2:负责现场多套多网管服务器的维护工作以及多套大数据工具服务器的维护工作,其中包括多套HP分布式物理服务器,IBM小型机,SUN小型机, 操作系统有redhat, aix, solaris,数据库有oracle, sybaseiq, mysql, maridb, mongodb, greenplum, 后端存储磁阵有IBM V3700, EMC 5300.

教育经历

  • 2003-09-01 - 2007-07-05武汉理工大学光信息科学与技术本科

    毕业院校: 武汉理工大学(2003-2007) 本科

技能

Linux
MySQL
ELK
CI CD
自动化运维
监控
K8S
Falcon prometheus
0
1
2
3
4
5
0
1
2
3
4
5
作品
python3 + Flask 订餐小程序和后台管理系统

通过flask javascript *小程序实现的一套餐饮订餐系统, 后台通过python flask编写的管理端 其中有用户管理 商品管理,账号管理等功能,前端为javascript写的相关逻辑代码通过*小程序发布。

0
2023-04-28 14:39
通过python 爬取阿里云所有资源的详细消费清单并推送到飞书群

为阿里云各种资源的消费账单信息建立每个月消费展板和每天的消费详情展板并推送到飞书群,方便及时查看各种阿里云资源的消费情况,若有异常消费能够及时优化节省成本。

0
2023-05-06 09:54
全程独立完成业务在阿里云ask集群的自动化部署,监控告警,日志采集

全程独立在阿里云上创建ask集群 并通过helm方式把业务部署在阿里ask集群(通过gitlab cicd下发helm部署命令),设计需要监控的重点业务指标,设计需要告警的重要指标并推送到飞书告警群,设计通过镜像缓存方式为集群常用的镜像建立缓存体系使得业务容器启动时间由之前的20分钟左右 缩减到1s左右启动,设计通过阿里云日志采集方案将业务容器日志推送到阿里云日志中心 并设置常用的日志查看索引和展示页面。

0
2023-05-06 09:55
更新于: 09-05 浏览: 837