个人介绍
2012年中级职称软件设计师; 2017年高级职称项目管理师; 2018年CSM敏捷认证; 2019年csdn20周年直播嘉宾; 2020年高级健康管理师; 清华大学出版社《MongoDB游记》数据库教程书作者。 专注于数据挖掘技术与大数据,云计算与存储等技术的学习与研究。 擅长系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。 熟悉数据的采集、数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)整个流程。 熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。 常用开发语言:java、python、c#、perl、sql。
工作经历
2015-04-01 -至今成都二十三魔方生物科技有限公司数据中台负责人
历任职务 1、高级数据开发工程师 2、管理系统部门负责人 3、存储与运算部门负责人 4、数据中台负责人 主要工作 1.实验室系统 2.供应链系统 3.基因数据系统 4.数据生产自动化云平台 5.云存储计算平台成本监控系统 6.数据仓库平台 7.BI商业智能数据分析运营平台 8.数据中台
2013-06-01 -2015-03-01成都锐理数据处理技术股份有限公司数据研发工程师
1. 房地产智能搜索引擎 2. 全国土地信息采集系统 3. 人口统计商业选址系统
教育经历
2009-09-01 - 2013-05-06四川理工学院计算机科学与技术本科
技能
项目名称:GenoDig数据仓库平台优化 时 间:2020年1月至2020年6月(项目周期6月) 项目概述:(项目人数5人) 该项目主要是实现对已有的基因数据提供相关分析挖掘的交互式平台。例如进行一些新的基因位点的特征研究,以及基因与表型GWAA分析(Genome-wide Association Analysis,基因组关联分析),使用已有数据构建基于深度学习的智能分型算法,基于基因关系和单倍群的分析等。本次优化主要是使用k8s替换emr,自动伸缩更灵活,不需要常驻节点。 业绩和成果: 云计算和大数据的结合, 比如我们目前实现的spark on k8s ,算是比较新的方案。把大数据的架构运行在云上容器里,比传统的服务器部署大数据平台要节省35%左右的成本。 工作职责: 1、spark on k8s技术调研 主要技术: 1、 计算引擎spark 2、 底层k8s 3、 前端交互jupyter notebook 4、 存储hbase+hive
项目名称:云存储计算平台成本监控系统 时 间:2019年8月至2019年12月(项目周期5月) 项目概述:(项目人数5人) 该项目主要是实现对公司云计算的运算资源和存储资源使用情况进行数据收集监控分析,对资源使用不合理的功能模块进行告警,可以精确到 具体的pod运行情况 。 业绩和成果: 云存储计算平台成本监控系统上线后,针对云的存储和运算资源使用是否合理层面的监控调整,及时清理不必要的数据,能够节省50%左右的云成本 工作职责: 1、技术方案选型,功能模块和架构设计 主要技术: 1、 k8s的开源监控系统prometheus 2、 python通过api获取prometheus和s3存储的数据入库mysql 3、 可视化分析工具 grafana
项目名称:GeneFactory分布式基因数据生产自动化云平台 时 间:2018年7月至2019年7月(项目周期12月) 项目概述:(项目人数10人) 该项目主要是实现对实验室给出的DNA测序数据进行分析提取并根据算法进行运算最终给出用户报告数据。因为生物数据分析步骤复杂,人工操作易出错,系统采用argo+k8s云计算架构,实现了流程编排,自动化触发运行,几十多台服务器分布式对DNA数据的初步提取,以及用户报告的生成。 业绩和成果: 系统完成后,能够实现自动化数据分析为用户生成结果报告,给公司创造了交付价值。 从人工处理变成自动化处理,提高了处理效率,突破效率瓶颈,节省了人工成本。目前已经累计完成了接近一百万人的基因数据分析。最多同时运行200多台服务器,目前数据量级几百TB。 工作职责: 1、技术方案选型,功能模块和架构设计 2、部分功能的sdk模块的编写 3、项目管理和跨团队沟通 主要技术: 1、 底层主要采用了argo和k8s实现任务编排和分布式云运算 2、 存储方面采用了s3、mongodb,mysql等技术 3、 前端页面方面: html,css,js,vue 4、 后端sdk和API:java和python,springboot 5、 中间件:kafka