幸福陪伴
1月前来过
全职 · 1200/日  ·  26100/月
工作时间: 工作日20:00-06:00、周末00:00-23:00工作地点: 远程
服务企业: 6家累计提交: 1工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

一、 故障处理:快速定位问题,高效解决,减少故障时间;

二、 运维环境标准化、规划化、文档化、流程化管理:例:服务器、服务上下线生命周期管理等

三、 运维安全体系的建立

四、 DevOps系统架构和落地经验:ansible、saltstack实现批量操作和配置管理,跳板机,CICD等;

五、 消息队列系统:pulsar、RabbitMQ、RocketMQ、kafka等的集群部署和维护;

六、 数据库:(非)关系型数据库架构设计,部署、备份、扩缩容和升级,如MySQL、Redis、elasticsearch、MongoDB等;

七、 存储系统:熟悉NAS、OSS、Ceph、minio、openebs等的使用.

八、 监控系统:zabbix、prometheus、夜莺等监控软件,根据需求设计架构,并落地;

九、 ELK日志系统:容器化与非容器化环境架构设计、搭建及维护;

十、 熟悉APM工具:skywalking、pinpoint等架构设计、实施,性能瓶颈排查、解决;

十一、 内网DNS:DNS高可用架构设计、维护,故障演练;

十二、 用户统一认证:openLDAP引入,能自助修改密码,集成各种运维平台及部分业务平台;

十三、 运维自动化:掌握shell、python,了解go;python框架Django、flask,关注自动化运维项目;

十四、 容器化技术:掌握docker、docker-compose、kubernetes(K8s)相关生态技术,根据需求实践不同kubernetes架构, 以及关联组件 harbor、 helm、 Rancher、 KubeSphere 等

十五、 大数据系统组件(HDFS、spark、clickhouse、hive、dolphinscheduler、superset、presto、flink等)架构设计、日常维护;

十六、 混合云维护:公有云-阿里云、ucloud、AWS、华为云、微软云等;私有云管理:OpenStack、ESXi虚拟化等

工作经历

  • 2022-10-17 -至今北京千尧运维架构师

    1.负责混合云的服务维护、成本评估及管控, 跟厂家对接进行架构的调整、方案的沟通,确定可行性方案,资源管控 2.从0到1制定并落实运维环境标准化、流程化、自动化、文档化 3.公司办公网网络改造、IT技术支持等工作:方案探讨制定、实施、输出技术文档 4.和技术leader探讨、并确定产研流程和项目生命周期管控 5.参与业务线产品、项目设计评审,软硬件成本评估,物联网架构设计,使服务满足运维准入的高可用要求; 6.内部管理系统从0到1设计方案、实施,并制定各系统管理规范:企业网盘、wiki、jira、openldap、内网dns等 7.从0到1设计、部署并维护开发、测试、预发布、生产环境的kubernetes集群 8.从0到1设计、部署并维护容器化环境CICD自动化、监控系统、备份体系、日志收集系统,践行devops 9.中间件架构设计、维护:apisix、MySQL、dolphinscheduler、tdengine、influxdb、MQ等 10.运维团队管理:负责运维团队基础维护相关工作,保障运维安全、处理运维事故、优化运维流程,不断降低系统风险

  • 2020-08-24 -2022-10-12 北京赢销通软件技术有限公司 高级运维工程师/架构师

    1.负责 aws 阿里云平台的维护、成本管控, 跟厂家对接进行架构的调整、方案的沟通,确定可行性方案 2.标准化、流程化、文档化落地:服务(器)、域名生命周期管理标准流程的制定、推行 3.从0到1设计、部署并维护test环境、prod环境(aws eks)的kubernetes集群 4.研究KubeSphere管理平台,熟悉周边生态如DevOps、应用商店、日志系统、事件系统、告警和通知、服务网格 5.Devops流程:设计、搭建并不断优化CICD流程,最小化、精确化对权限进行管控 6.中间件架构设计、维护:分布式队列pulsar、网关apisix、Redis、elasticsearch、kafka、nacos、MySQL等 7.大数据运维:实时、离线数仓架构设计、搭建与维护:hadoop、dolphinscheduler、hive、seaTunnel、hudi、spark、flink等 8.安全体系的建立:高防--> CDN-->LB-->网关apisix-->业务服务器(最小化访问权限,设置入站与出站规则) 9.运维流程化及自动化推广:Yearning、RedisManager、j

  • 2018-12-24 -2020-08-21达令心潮(北京)商贸有限公司 Linux运维工程师

    1.IDC改造:OpenStack改造升级,优化服务器生命周期管理,根据服务器功能不同进行解耦上架; 2.制定服务器申请规范和上线后服务器使用率标准:根据使用率进行业务服务器配置、节点数变更; 3.文档和流程方面:制定了详细的应急响应流程、大促保障机制、监控项梳理等流程和规范,以及运维架构文档的梳理; 4.团队建设方面:明确、细化人员分工,开放式管理,注重内部沟通和信息同步 5.完善监控体系:系统监控、业务监控、中间件监控、APM工具等 6.协助开发微服务改造:集成kong(网关)、consul(注册)、Apollo(配置),APM工具pinpoint;探讨、执行迁移方案; 7.日志系统架构ELK设计、实施及维护,并根据需求做出实时增减、策略等调整,集成ldap; 8.完善备份体系:运维基础服务、日志、OPS配置、定时任务、数据等; 9.中间件架构根据业务需求设计、维护、扩容、迁移:elasticsearch、zookeeper、kafka、rabbitMQ、pinpoint等; 10.业务服务迁移:测试、压测环境、生产业务迁移至阿里云;阿里云迁移至其他云的方案探研、制定、执行方案;

  • 2016-02-18 -2018-12-20北京易通贷金融信息服务有限公司 Linux系统运维工程师

    1.搭建开源跳板机jumpserver,并集成LDAP,后期维护管理; 2.根据实际需求编写管理、自动化程序,不断提高运维效率; 3.Jenkins+gitlab+maven+ansible+CMDB自动化构建部署,在准生产和生产持续发布版本; 4.ELK日志系统架构设计、实施及维护,根据业务需求,做出实时增减、策略等调整; 5.内网dns集群搭建和维护(bind实现); 6.对VMware ESXi环境管理,跟据开发、测试、领导需求搭建相应的环境,使用自动化工具管理; 7.大数据hadoop系统的日常维护 8.研究Python开发、devops实践和openStack虚拟化; 9.熟悉docker、kubernetes(K8s)等容器化技术;对docker部署软件日常管理,故障处理,线上环境维护 10.ECS安全加固,更改登录认证方式:全部改为密钥认证;

教育经历 和TA聊聊

APP扫码和程序员直接沟通

  • 该用户选择隐藏教育经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看

技能

Hadoop
Docker
RabbitMQ
自动化运维
K8S
Falcon prometheus
jenkins
分布式
NoSQL
0
1
2
3
4
5
0
1
2
3
4
5
作品
APM工具:pinpoint

Pinpoint是一款全链路分析工具,提供了无侵入式的调用链监控、方法执行详情查看、应用状态信息监控等功能。 服务拓扑图:对整个系统中应用的调用关系进行了可视化的展示,单击某个服务节点,可以显示该节点的详细信息,比如当前节点状态、请求数量等 实时活跃线程图:监控应用内活跃线程的执行情况,对应用的线程执行性能可以有比较直观的了解 请求响应散点图:以时间维度进行请求计数和响应时间的展示,拖过拖动图表可以选择对应的请求查看执行的详细情况 请求调用栈查看:对分布式环境中每个请求提供了代码维度的可见性,可以在页面中查看请求针对到代码维度的执行详情,帮助查找请求的瓶颈和故障原因。 应用状态、机器状态检查:通过这个功能可以查看相关应用程序的其他的一些详细信息,比如CPU使用情况,内存状态、垃圾收集状态,TPS和JVM信息等参数。 Pinpoint 主要由 3 个组件外加 Hbase 数据库组成,三个组件分别为:Agent、Collector 和 Web UI。 Agent组件:用于收集应用端监控数据,无侵入式,只需要在启动命令中加入部分参数即可 Collector组件:数据收集模块,接收Agent发送过来的监控数据,并存储到HBase WebUI:监控展示模块,展示系统调用关系、调用详情、应用状态等,并支持报警等功能

0
2021-06-14 18:18
Prometheus+grafana实现kubernetes监控及可视化

Prometheus Server 负责从Exporter拉取和存储监控数据,并提供一套灵活的查询语言(PromQL)工用户使用 Exporter负责收集目标对象(host、container)的性能数据,并通过HTTP接口供 Prometheus Server 获取 grafana 可视化组件,控数据的可视化展示对于监控方案至关重要。以前Prometheus自己开发了一套工具,不够后来放弃了,因为开源社区出现了更为优秀的产品 Grafana。Grafana能够与 Prometheus无缝集成,提供完美的数据展示能力。 Alertmanager 用户可以定义基于监控数据的告警规则,规则会触发告警。一旦Alertmanager收到告警,会通过预定义的方式发出告警通知。支持的方式包括 email、PagerDuty、Webhook等 Prometheus 与 其他监控工具(zabbix、graphite、nagios等)相比,最大的亮点和先进性是他的多维数据模型。

0
2021-06-14 18:11
ansible

使用ansible命令或编写ansible-playbook,按组(嵌套)管理主机实现下面的功能: 1、实现批量操作系统配置 2、批量程序(一个程序或集群)部署 3、批量运行命令,完成指定任务 4、服务持续CICD

0
2021-06-14 17:50
更新于: 2023-07-29 浏览: 523