个人介绍
17年底进入国内Top互联网公司,先是负责流量反作整项目,搭建了整个流量反作弊的风控体系,之后又负责智能告警系统中异常检测的算法研究,从20年起到现在,开始负责直播推荐的项目,从0到1搭建了直播的推荐算法系统。
熟练掌握传统算法模型和深度学习框架, 有扎实的理论基础和丰富的建模经验.熟练掌握Python、Spark、MySQL语言.
工作经历
2017-11-27 -至今Top互联网公司算法建模
在公司内作为项目负责人,独立负责的主要项目包括:直播推荐算法体系的搭建、流量反作弊风控体系的搭建、异常检测算法模型的研究.
2016-07-15 -2017-07-21Top金融公司数据挖掘工程师
作为项目负责人,从事医疗以及金融保险方面的数据挖掘工作, 主要项目包括互联网医疗问诊数据的挖掘、医疗保险用户画像的构建和保险费用的预测模型搭建
教育经历
和TA聊聊APP扫码和程序员直接沟通
该用户选择隐藏教育经历信息,如需查看详细信息,可点击右上角“和TA聊一聊”查看
技能
异常检测项目的背景是这样的,当时团队正在开发一个运维监控系统,用来监控后台服务的运行状况。异常检测就是为了实现监控指标的智能告警,属于运维监控系统的一个模块。做异常检测算法模型负责人, 主要工作及产出如下: •独立调研时序信号异常检测领域技术现状,并结合业务特性制定技术方案 •基于 PyTorch 框架实现深度学习异常检测模型,核心算法包括 DBSCAN、VAE •开发出一套开源代码,用于时序数据去噪、平滑、模板提取及模板聚类等功能 •实现并行化,单次识别时间降低至 5-20 毫秒,符合线上计算性能需要 •异常检测算法 F1-score 相比原有方法提升 60%+
内容体系包括图文文章和视频,通过把内容分发到不同的内容渠道上来获取用户阅读量,共有10+渠道。在这个过程中,内容的创作者根据用户的阅读量获得分成,有的作者为了获得高分成进行作弊刷量,流量反作弊的目的就是把这些作弊流量识别并过滤掉,为公司减少成本。 作为项目的负责人, 主要产出如下: •从 0 到 1 负责10多个渠道的风控体系建设,包括数据接入、风控策略、算法模型、风险分以及日常监控等模块 •完善各渠道数据接入流程并统一数据验收标准,数据接入效率提升 3 倍以上 •通过跨团队合作,引入多方风险数据,丰富分析数据源,完善风控策略体系 •设计风控策略 70 条,日均节省作弊分成从 12 万提升至 90 万,节省成本 10%左右 •独立研究风控算法模型(LR、RF、DT、GBDT、NB、SVM 等)并部署上线,识别作弊量提升 20%+ •建立自媒体作弊风险分模型(TOPSIS),量化自媒体风险程度,以此打击作弊媒体,形成风控闭环 •作弊团伙分析,挖掘出 2 个作弊团伙 •调研 Echarts、Highcharts 及 D3JS 等工具,并基于 Echarts 进行可视化数据开发
从直播业务上线起,本人就开始负责整个推荐体系的搭建,包括最基础的数据上报链路的设计,特征画像体系的构建,物品的召回方式,以及精排模型的迭代优化还有最后重排层策略的设计和完善。到目前为止,推荐体系中各个核心模块,比如特征、召回、精排和重排,已经有了一个比较完整稳定的相架体系,虽然还没到达到非常完善的程度,但也在各个模块中做了很多的尝试和优化,整体优化下来,人均时长也比提升了10%以上。推荐体系具体模块及主要成果如下: •完成了直播推荐算法体系从 0 到 1 的搭建,包括数据上报规划、特征体系构建及召回 层、精排层和重排层的算法模型或策略体系的搭建 •从离线、实时、用户流水数据和基础属性四个维度搭建特征体系,完善用户和物品的 画像特征 •构建多路召回策略,包括实时相关召回、热度召回、用户历史偏好召回等,全面覆盖用 户潜在偏好主播 •基于 TensorFlow 框架构建深度学习精排模型,从单目标模型、多目标模型逐步优化至多 场景多目标模型,涉及算法包括 DeepFM、ESMM 和 MMOE,模型优化点包括样本权重优化、 多目标 loss 优化、序列 ID 特征 Attention、多目标融合优化等,精排模型效果提升 10%+ •实现多种重排层策略,包括比例控制、曝光降权、冷启动扶持、动态扶持、柔性清晰度 过滤、实时内容合法性监测并降权,用以兼顾用户体验和运营需要