个人介绍
精通Python:1. 数据分析:pandas、numpy、sqlalchemy
2. 编程:面向对象、异常处理、互联网访问、爬虫、web框架(Django)
精通使用MySQL数据库 、hiveSQL
主研机器学习算法有推荐算法 、强化学习 、二分类模型评估
精通使用pyspark开发机器学习算法模型与数据模型
精通使用BI工具:superset与quickBI
熟练运用Linux操作系统与指令
熟练使用scala-spark建立数据模型
工作经历
2019-04-22 -2022-04-18北京云和互动信息技术有限公司数据挖掘
1.洞察广告平台数据与公司后台保存的业务数据,进行数据清理与统计分析,将结果通过BI展示。 2.收集广告平台数据与投放日志数据,结合广告业务原理,实现智能广告优化,挖掘更多广告优化方向。 3.分析数据中存在的潜在价值,设计机器学习模型,将模型落实于业务并优化运维。
2018-08-01 -2019-01-03北京海博思创有限公司数据分析实习生
通过收集并分析BMS系统的新能源汽车行驶数据,分析新能源汽车电量消耗与行驶习惯的关系,预测新能源汽车续航里程。
2017-07-11 -2018-03-31上海移云信息技术有限公司算法实习生
负责开发电视端APP个性化推荐系统,分析视频内容与用户观看记录数据,提高推荐系统的精准度。
教育经历
2011-09-01 - 2015-06-30武汉科技大学电子信息工程本科
技能
项目描述:调用广告平台API接口实现自动化广告投放,分析广告投放数据,挖掘广告投放优化方向 项目角色:产品设计、后端功能开发、运维 具体工作内容: 汇总广告API接口参数与业务需求,设计数据表结构以及数据流,汇总可实现功能并撰写操作文档,python开发广告投放功能接口。 实现自动化广告投放后,编写python脚本定时获取广告投放数据报告,结合业务需求,统计广告投放数据转存至MySQL数据库并用BI工具进行展示。随着数据量增长,将数据报告转存至hive数据库,并用pyspark进行数据清理与统计,统计结果数据使用datax从hive数据库转存至MySQL数据库。 统计计算广告数据报告中的关键指标,比如转化率、转化成本、投放时长等,根据关键指标获取预设的对应优化操作,拆解并执行API接口请求,记录广告优化操作日志。 使用强化学习模型,挖掘不同关键指标下广告计划的最佳优化行为。将广告页面点击率与转化率组合作为状态(state)的评估指标、已对广告计划的优化操作作为行为(action),点击率与转化率提升作为正面奖励(reward)。
项目描述:将广告投放数据与*订单成交数据进行入库,建立集成业务数据的数据仓库,通过数据仓库进行数据清理与*卡销售的利润结算,将*卡销售情况以不同维度,使用BI工具进行展示。 项目角色:数据仓库设计与开发、实现数据应用 编写python脚本,提供数据入库的工具,通过jupyter可视化界面,实现上传数据并执行脚本,供运营人员实现数据入库。收集可获取源数据的API接口,使用定时程序的方式获取数据并入库。 结合业务数据划分与数据结合过程中的容错率,设计数据仓库结构,编写python脚本实现数据仓库数据的清理、计算、统计,随着数据量增长使用hive数据库与pyspark实现数据仓库的数据更新。 BI工具与DA层数据表进行连接,绘制BI界面进行展示。BI展示不仅用于业务观察,还要用于发现异常数据,将异常数据进行反馈,获取解决方案,解决方案包括数据处理规则扩展、业务数据逻辑调整、反馈源数据存在的问题进行修复等。
项目描述:从每月十亿级别的*卡用户中,以APP行为频次作为特征,建立二分类评估模型,提取最相近于已转化*卡用户的*号进行打包,投入于广告平台作为广告计划的投放定向。 项目角色:特征工程、落实业务 读取hive数据库获取*卡用户APP数据,计算APP使用频次与时长(天) 并对其进行格式化,以月为单位保存至数据库准备进行特征工程。获取正样本数据(已转化*卡用户)保存至hive数据库。 进一步计算APP行为数据、进行归一化与向量化、获取特征向量。计算指定月APP使用频次与时长、归一化之后作为当月APP使用特征。对比两个月的数据,计算APP使用频次与时长变化,作为APP使用变化特征。获取待观察APP列表,进行过滤后进行向量化,作为最终模型训练的数据,为特征向量打上正样本与负样本标签。 根据业务需求,获取经过模型预测后的数据。指定业务需求数据量、是否重复获取历史数据、是否转存等选项,将以上选项作为入参,执行数据获取的脚本,根据模型预测时给予样本的评分,递减的原则去获取数据,将结果保存至文本文件用于互联网广告投放的用户定向设置。