微信用户1517058942
1月前来过
全职 · 800/日  ·  17400/月
工作时间: 工作日8:00-22:00、周末8:00-22:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

1、具备良好的代码风格,掌握常用的设计原则和设计模式,并能熟练运用到实际项目中提高系统的可扩展性、可维护性
2、具有解决高并发、大流量场景的经验,拥有建设高性能服务的能力
3、具有处理复杂业务的经验和能力,  通过技术手段促进和帮助业务效能提升
4、具备独立完成复杂工作、指导他人的能力,同时具有较强的抗压能力
5、能够带领团队完成复杂大型项目,具有较强的跨团队合作能力和推动能力,具备解决复杂事务的协调能力和沟通能力

工作经历

  • 2022-10-01 -至今soul平台负责人

    负责算法工程平台建设,包括算法模型部署平台和算法能力中台,推动算法业务落地。涉及大模型应用、AI中台建设和大模型评测,优化算法性能,支持业务需求与技术实施

  • 2021-08-01 -2022-10-01贝壳系统开发

    负责劳务结算、财务入账和服务者业绩系统的开发与设计,优化财务流程,提升系统效率,确保业务数据准确,支持财务和服务业绩分析,改进财务操作及报告质量

  • 2018-03-01 -2021-08-01美团系统开发

    - 电商后端 订单履约、仓储系统 - 入库、出库、库存管理等系统的设计与开发,提升仓储管理效率 电商后端开发,负责订单履约及仓储系统的设计与开发,致力于提升入库、出库、库存管理效率,优化仓储流程,提升系统性能和用户体验

  • 2014-10-01 -2018-03-01京东高级后端工程师

    - 负责 7fresh 运营后端业务系统的设计与开发,支持新零售业务的高效运营,保障系统稳定性和快速业务交付,已经系统性能优化

教育经历

  • 2010-09-01 - 2014-06-01中国民航大学计算机本科

    计算机学院毕业,掌握编程、数据结构、算法等核心课程,成绩优异,获得奖学金。

技能

0
1
2
3
4
5
作品

项目名称:美团-B2B餐饮商家电商平台 - 项目描述: 提供餐饮原材料采购平台,T日交易,T+1日履约 - 项目角色:负责采购入库和库存管理系统设计开发 - 业绩贡献 - 负责仓储入库、库存两大业务,并通过微服务架构升级单体仓储系统,完成0错误平滑迁移数据,使得业务迭代效率提升3倍,稳定性提升2倍 - 运用模板模式、策略模式设计系统的扩展性,高效完成快速接入4个系统7种单据,4种作业模式 - 通过故障隔离、灰度发布、服务治理、限流降级、容灾设计、监控、多级告警等高可用方案,将系统稳定性提高了40%, 0 p0、p1级事故发生 - 采用BCP数据一致性校验机制、分布式事务 、接口幂等设计等方案将数据一致性提高20% - 通过服务读写分离、分库分表、数据冷热分离、缓存优化、合并请求 等方案系统性能提高15%,吞吐提升30%,核心接口TP99

0
2024-08-05 15:56

项目名称:SoulApp个性化歌声合成项目 项目简介: 为了丰富了用户的互动体验,同时显著提高了平台的日活跃用户数、吸引新用户的能力以及内容的分享率,本项目通过采用AI音乐歌声克隆技术为SoulApp平台用户打造一个先进的个性化歌声合成体验 项目角色:项目负责 系统设计 代码开发 技术栈:Java,Python, Spring Boot,Kafka, Kubernetes, MySQL, Redis 项目成果: - 覆盖20万现有用户,参与率达20%, 分享率达到7%, 拉新1万+ 业绩贡献: 1. 通过异步解耦架构、缓存请求、信号量隔离、Kafka结果推送等机制,保证请求成功率高达99.3% 2. 通过镜像缓存,模型训练效率提升5倍+ 3. 引入ECS+ECI+抢占式弹性资源组合训练推理,训练成本降低56.8%,将用户平均成本从1.25元降低至0.75元 4. 保证了项目的稳定运行对系统进行了全面的压力测试,精确评估了系统的吞吐能力、延迟和存在的性能瓶颈,并根据测试结果优化了硬件配置,确保了GPU资源效利用超过80% 5. 建立完善的可视化监控告警机制,实时监控任务量、等待时间、吞吐量等关键指标及时发现并处理系统故障

0
2024-08-05 15:55

项目名称:soul-算法工程平台 项目简介:通过建设算法工程平台,解决算法模型落地中的效率、稳定性、性能、成本问题 项目角色:技术负责人、平台设计、代码开发 技术栈: tritonserver,Java, Spring Boot, Kubernetes, Arena, MySQL,Redis 成果和影响: - 支持3大业务(审核、风控、画风)的95个算法模型服务从人工运维到自动化运维 - 算法模型上线时间缩短50%,模型更新时间减少30%,模型部署失败率从8.7%降至2% - 成本节约400w+/年(GPU数量 400-> 240),GPU利用率提升3倍(GPU利用率峰值的平均值 11% ->36%) - 算法服务整体稳定性提升35倍(最近7天cpu服务可用性 99.29% → 99.98%) - 算法服务整体性能提升20%(最近1天cpu服务延迟p90平均值 420ms -> 336ms) - 关键贡献: - 建设推理平台,结合Triton Inference Server、Arena,Kubernetes 支持GPU模型服务发布 - 搭建 nuclio serverless平台支持模型前后处理逻辑 CPU服务发布 - 通过建设模型自动化评测平台,降低人工评测20万+次,人工评测成本降低5万 - 通过推进CPU服务 HPA, GPU抢占式部署、共享部署,成本节约 400w+/年 - 通过监控(Grafana+Prometheus)和报警机制,限流、熔断、服务降级策略等容错机制,显著提高服务的稳定性 - 通过引入TritonInference Server、代码优化、并发处理与负载均衡、缓存策略等措施,有效提升系统性能 - 面临挑战 - 算法服务稳定性差 - 线上问题响应成本高 - 推理性能差、延迟高 - GPU资源利用率低

0
2024-08-05 15:53
更新于: 08-05 浏览: 46