个人介绍
熟悉运维系统结构,具有丰富的项目规划、设计和组织实施经验,比较扎实和广泛的Linux知识,能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向;可以快速掌握新的技术,在短期之内 对新产品和新业务进行及时地支持;对工作高度负责,注重团体协作精神和服务意识,具备较强的项目管理能力和执行力,能承受工作压力;热爱运维行业,热衷通过技术方案解决实际问题。
工作经历
2017-06-01 -2022-11-01北京中商惠民运维架构师
1.负责运维惠民相关产品的服务(pc/mobile 端),保障业务 7*24小时稳定运行; 2.负责运维体系的制定和技术方案落地,包括运维标准化/规范化/自动化等方案的制定和推动落地,如系统和应用标准化的制3.定、监控报警策略及规范的制定、sonar代码扫描平台制定、ELK日志系统制定等; 3.负责推动研发改造和优化程序架构,提升服务稳定性和规避安全风险,如协助接入API 网关、设计数据安全管理平台、制定OSS文件存储管理规范、主导阿里云经典网络迁移VPC网络等。
2010-11-01 -2017-05-31北京百度网讯科技高级运维
1.负责运维百度商业广告检索端系统、百度软件下载站点、公共开发机集群、私有云管理平台等,7*24小时及时响应服务和平台报警,并保障其稳定运行; 2.负责为广告系统的DNN模型部署国内规模(机器规模 5000+)最大的FPGA 异构集群,并建立了从0到1的异构计算运维体系; 3.负责运维百度公共开发机集群和公共测试集群,为提升研发和测试人员效率并给予提供技术支持(包括 工具包等),同时建立完善的监控机制保障集群高可用; 4.负责运维公司私有云管理平台(包括云资源申请、分配、回收、自助运维操作、自定义环境模板等功能),建立完善的监控机制保障平台稳定运行。
2009-07-01 -至今北京博客网技术有限公司运维工程师
1.7*24小时保障www.bokee.com等网站正常运行,及时响应客服反馈的用户问题和报警的处理; 2.负责运维Linux&Windows操作系统,并搭建 Apache、Tomcat,Resin、Ngnix、Squid 等服务,安装并维护SQL Server、Mysql等数据库,同时使用shell+bat建立自动备份机制; 3.使用Networkbench分析用户访问网站情况,并使用Cacti软件统计网络设备的流量、CPU、系统负载等参数。
教育经历
2005-02-01 - 2009-01-31北京大学计算机科学与技术本科
技能
一.引入CI&CD系统: 引入jenkins作为CI&CD系统,设计部署项目流程,同时使用gitlab webhook配置自动化部署,并引入代码检测工具(sonar)代码检查; 二.配置构建: 1.设计基于java和nodejs(含h5和app)的服务编译、打包、部署等流程,包括服务更新、服务回滚、服务进程管理等; 2.开发编译、打包、部署的逻辑,并自动化编译部署测试过程中,引入sonar 代码检查,将静态代码主动上报至sonar 平台,供研发人员分析代码质量问题,同时springboot 项目集成 jacocoagent,在测试环境将测试覆盖率上报至sonar平台; 3.服务更新过程中,保证服务部署期间可正常使用,调用服务自动上下线接口和服务健康健康检查接口。 三.维护管理: 可详细设计各类开发语言的部署流程,熟练使用及配置各类集成插件,如ldap、sonar、dingtalk、mvn等。
一.日志调研: 选择ELK和Graylog,从功能需求、技术架构、易用性等方面进行对比。 二.引入ELK日志解决方案: 1.选择 ELK(elasticsearch+logstash+kibana)作为日志管理解决方案,使用 kafka 作为日志缓冲队列,filebeat 作为日志收集器,logstash作为数据清洗使用,数据存储至ES中,kibana展现日志及配置dashboard; 2.使用elasticsearch高级功能,包括引入Es-watcher报警(将接口异常日志和错误日志告警至各项目组)、登录集成LDAP、服务健康检查监控、logstash管道管理等; 3.历史日志基于ES索引使用 snapshot 方式归档至阿里云oss,查询历史日志从【自助日志查询系统】从snapshot中恢复; 4.制定日志规范,并推动业务改造成规范日志并接入 elk 系统中。