个人介绍
2. 熟悉常用机器学习算法及深度学习算法,且熟悉常用机器学习与深度学习平台,包括sklearn,Tensorflow和PyTorch等
3. 掌握SQL语言,且拥有多种数据库工作的相关经验,包括MySQL, MySQL server, Oracle, SAP等
4. 掌握多种数据分析及ETL工具,包括Excel, Informatica, OBIEE, Matlab, Seaborn, ggplot
5. 拥有多段外企实习及工作经验,能熟练使用英语进行工作交流、生活交流,并能独立完成英文文献阅读及研究
工作经历
2021-06-01 -2021-10-01UPS快递(美国联合包裹服务)数据科学实习生
1. 项目描述: 通过分析时间序列历史数据,搭建模型对货运吨位以及体积需求进行预测,从而为公司的航线安排提供参考 2. 探索性分析&特征工程:对不同日期、月份、季度以及节假日时期的货运吨位及体积进行分析,并使用one-hot encoding等开发出相应的特征工程方法,同时对其他外部关联数据进行相关性测试以及实验,从而进行特征选择 3. 预测模型搭建:通过对不同模型(包括Sarimax,随机森林,梯度提升树,XGBoost,LGBM,LSTM)进行实验以及超参数调整,最终成功将每日吨位需求预测结果MAPE降到0.18 4. 预测模型二次开发:基于原有的每日吨位需求预测方法对体积需求预测进行开发,并对通过多种预测方法(例如直接预测,基于每件物品重量的预测等等)的结果进行分析及比较,最终将最优模型方法交付市场部门
2021-02-01 -2021-05-01南洋理工大学研究实习生
1. 项目描述:基于实验室产出的经化学药剂处理过的细胞内部结构显微图像,构建模式识别神经网络对高尔基体实现定位功能 2. 数据预处理:基于实验室原有的图像处理方法,开发程序对源图像进行背景移除、像素缩放等处理,并使用DFS算法对高尔基体及非高尔基体进行提取及标注,从而构建测试集与训练集 3. 模式识别网络搭建:使用CNN & DNN基于PyTorch搭建传统目标识别网络,同时进行训练及超参数调整(如调整网络结构,损失函数等),最终将模型的F1分数成功提升到81%,并将解决方案和操作说明交付实验室以提升图像分析效率
2018-03-01 -2019-11-01集成医疗信息系统公司数据工程师
1. 数据仓库运维:基于用户需求及日常反馈,对数据仓库(包括但不限于Oracle,MySQL和SAP)进行日常问题追踪,并进行必要的数据库运维工作(例如增删改查,表格及表格关系管理,等等) 2. 数据ETL开发及运维:通过对用户需求进行分析,对相应ETL流程进行开发与部署,同时基于用户的日常反馈,对樟宜总医院数据仓库的ETL数据流进行日常的运营维护以及故障排除,并最终达到了96%的用户满意度 3. 商业智能报告开发:基于数据库后台表格结构给予商业智能团队建议,从而实现每日/周/月的商业智能报告制作及交付
教育经历
2020-11-01 - 2021-11-01南洋理工大学生物数据科学硕士
机器学习,深度学习,数据挖掘,医疗图像识别,生物信息
2013-09-01 - 2017-06-01电子科技大学光电信息科学与工程本科
光电信息,光学,电路分析,电磁场与电磁波,图像处理,信号处理
技能
1. 项目描述: 通过分析时间序列历史数据,搭建模型对货运吨位以及体积需求进行预测,从而为公司的航线安排提供参考 2. 探索性分析&特征工程:对不同日期、月份、季度以及节假日时期的货运吨位及体积进行分析,并使用one-hot encoding等开发出相应的特征工程方法,同时对其他外部关联数据进行相关性测试以及实验,从而进行特征选择 3. 预测模型搭建:通过对不同模型(包括Sarimax,随机森林,梯度提升树,XGBoost,LGBM,LSTM)进行实验以及超参数调整,最终成功将每日吨位需求预测结果MAPE降到0.18
1. 项目描述:根据家具电商网站Castlery提供的用户行为数据,在麦肯锡导师的指导之下对数据进行挖掘,从而进行用户画像细分,并推断出能够提升用户转化率及下单金额的方法 2. 数据预处理&探索性分析:对JSON数据文件进行数据提取,基于用户转化率及订单金额对用户不同页面停留时间、导流平台等进行相关性分析并进行特征工程,最终使用K-Means,层次聚类和DBSCAN聚类算法得出用户画像细分结果 3. 模型搭建&数据报告:搭建模型对下单用户和不下单用户进行分类预测,以及对下单用户的订单金额进行回归预测,并基于XGBOOST,DNN,随机森林等模型,通过超参数调整使得R2分数提高到75%,最终生成数据分析报告交付客户