salarh
1月前来过
全职 · 500/日  ·  10875/月
工作时间: 工作日00:00-24:00、周末00:00-24:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

5年互联网公司在线业务运维经验,有云产品使用经验及大规模服务器运维经验(1000+虚拟机)

熟悉K8s,Docker,istio 等微服务技术,有灰度发布线上系统落地经验

熟练使用及优化 Nginx,Redis,MQ 等常见中间件产品,故障排查,系统调优

熟练使用 Python,Go 等编程语言

熟练使用 Jenkin CI/CD,Prometheus,Ansible 等运维工具

兼任产品经理,协调多个相关部门解决问题

对工作认真负责自我驱动力强,能承受压力,做事条理清晰,做事稳重

工作经历

  • 2024-06-06 -至今浙江朔昂科技有限公司运维开发已认证

    ● 负责维护生产8套业务系统的稳定,故障排除、异常处理、定位问题等。统一收整编写启动脚本,并通过 supervisor 进行托管。通过 ansible 管理维护1000多台虚机及虚机上安装的中间件集群及配置,结合 jenkines 进行版本上线,部署,灾难恢复等快速操作。 ● 负责用 docker 或者二进制等方式搭建 redis,mq,nacos,kafka,etcd,minio 等中间件集群,并维护集群和优化。 ● 编写“主动发现”(早于客户发现)的监控业务和中间件等方案细则;制定应急演练内容方向,排期计划以及演练计划,并配置 prometheus,zabbix 等监控软件,进行业务系统监控。 ● 分布式服务集群搭建使用以及维护 Spring Cloud Sleuth 利用 Skywallking、Kafka、Elasticsearch 实现分布式追踪及日志收集的搭建和使用。 ● 主导将原线上业务迁移至 Kubernetes(K8s)平台,提高平台自动扩展能力,故障自愈能力;建设 Jenkins CI/CD+gitlab+k8s自动发布流程,满足快速迭代的开发需求,

  • 2021-11-03 -2023-06-09第六空间大都会家居发展有限公司运维开发

    ● 简单接口以及运维工具的开发,脚本的编写,处理生产测试开发出现的问题,以及日常研发使用的集群搭建,维护 ● 负责云服务器和本地服务器的k8s集群搭建,自动化部署的搭建,KubeSphere 搭建,维护使用以及问题处理;监控,日志收集,Cert-Manager 证书的签发以及维护,集群的搭建维护,使用;nfs 的挂载数据和日志留存;研究搭建并使用 skywallking ,并且将 skywallking 运用到生产,实现链路追踪和日志展现,方便问题排查 ● 对k8s入口网关 traefik的 ingress Route,Middkewares,traefik-service 负载平衡,镜像等需求限制的操作使用;iostio 服务网格的使用,iostio+flagger 的金丝雀发布 ● 负责公司 devops 的自动化的构建,jenkines的 Pipeline,ansible playbook,helm 等编写 ● kubesphere等k8s 托管平台,多租户,多集群的研究和使用 ● 使用 python 简单的自动化测试,数据分析处理

  • 2019-04-15 -2021-10-22中影环球科技有限公司运维

    ● 负责公司机房维护,三级登保的配合,异地机房建设。 ● 负责搭建产品的上线环境与 jenkines,gitlab 上线更版本工作.负责生产环境的监控,监控脚本的修改,业务的参数监控管理,7x24小时保障线上业务的稳定运行.以及微服务集群的维护 ● 负责数据库 mysql 的备份,用户权限管理工作,数据库的优化以及配置 keeplived 高可用。 ● LNMP,LAMP,Tomcat,redis,mq,LVS,nginx,minio 等环境的搭建与日常维护,优化以及 elk 的日志收集与管理,cmdb 蓝鲸资产管理系统的使用和维护,kafka 等集群的维护 ● 负责项目的部分接口 python,java 开发,调试,部分 php,html 的修改,微服务中心的修改维护,日常监控配置,及生产环境所以的页面,接口等健康监控。

教育经历

  • 2016-09-01 - 2020-05-05合肥工业大学计算机应用技术本科

技能

系统安全
自动化运维
监控
K8S
0
1
2
3
4
5
0
1
2
3
4
5
作品
devops自动化灰度发布和流量安全限制

项目背景: 因公司业务转移至线上商城,为应对每月活动,对业务要求及时性高,被要求不间断发布与测试,且要避免大流量攻击 项目实施:    技术选项:istio,flagger,kubernetes (自建),jekines,nacos    实施:      istio 自身也可以做灰度发布,主要基于他本身的 IngressRoute 的路由规则,但针对流量转移,自动回滚,部署这些是人为操作;故而找到开源的 flagger 进行流量灰度的渐进式交付,使用 Prometheus 监控接口指标判断,进行自动化灰度(金丝雀发布需要研发配合接口改造)发布和回滚.      又因 SpringColoud 微服务注册到 nacos,nacos 服务注册调用的默认方式是轮询,故和研发沟通新增类似健康检查的接口作为下线预警,在 deployment 的时候调用这个接口,实现 nacos 注册的服务权重由1变0,并在30s后下线。

0
2024-07-09 16:41
devops+监控+istio+链路追踪从0-1搭建

● 项目背景: 随着公司项目增多(从一个项目增加至八个项目),为了实现跨地域、跨机房、跨云的 Kubernetes 集群统一管理,提供一致的应用部署体验,简化运维复杂度,构建全面的监控告警和日志链路追踪系统。调研并采用 kubeshere 构建一个多集群联邦环境。 ● 项目实施: 集群联邦架构设计搭建: 1、设计并实施了基于 kubeshere 的联邦架构,支持多集群资源的统一视图和调度。 2、指定集群(kubeshere 集群已存在使用)作为主机群,设置成员集群,并导入集群成员的kubeconfig 。为提供统一的控制平面,将应用程序及其副本跨公有云和本地环境分发到多个集群。 自动化部署流程: 1、利用 Jenkins在 Kubernetes(k8s)中实现动态扩展,增加更多的 Pod 副本以处理请求,从而保证持续集成/持续部署(CI/CD )流程的性能和响应速度。 2、集成了 CI/CD 流程,通过 gitlab+Jenkins Pipeline+Sonarqube + helm , 组成的 CI/CD 系统。 3、定义项目模板, 标准化项目结构和必要内容. 降低开发认知负担。构建自定义传参尽可能设置下拉框,选择式管理部分应用基线 , 完善消息通知机制. 为开发提供自助的 发布 / 新环境搭建 / 扩缩容 / 资源容量 等功能, 提高开发使用效率. 业务侧监控告警与日志链路追踪系统: 1、修改 logbak 利用 SkyWalking Agent 构建 skywalking-agentsidecar 镜像并 push至 hub 私有镜像仓库,以 sidecar 模式,通过共享的 volume将 agent 所需的文件直接挂载到启动的服务镜像。实现了无侵入式链路日志追踪,并限制各种告警接口,日志关键值报错等阈值,快速发现并定位业务流转问题。 2、基于 Istio+SkyWalking+Prometheus+Grafana+Alertmanager 搭建业务侧监控告警与日志链路追踪系统,通过 Istio 监控流量,控制流量中的路由、熔断、超时重试等,Prometheus 收集集群的各项指标,并用 Grafana 进行展示,Alertmanager 进行告警规则限制。 安全性: 1、基于 traefik+ cert-manager 方式自动申请并续签 HTTPS 证书 2、kubeshere 集成 LDAP ,通过 RBAC 机制实现,在联邦集群中创建命名空间,将用户和资源进行分组和隔离, 在每个命名空间中定义角色,将特定的权限分配给这些角色,简化管理和提高安全性,确保用户和组只能执行他们被授权的操作。

0
2024-07-09 16:42
更新于: 07-02 浏览: 27