个人介绍
10年产品工作经验,最近7年专注数据产品领域,具备DW、BI、MDM、CMS、指标等系统设计实施经验,熟悉数据中台架构和主流工具。贴近技术,具备数据探查分析及基础编程能力,实现过机器学习项目。做过设计,UI/UX手感还可以。有过自主创业经历,喜欢有挑战性、创造性、前沿的项目,也热衷于在工作中推动采用SOTA技术去解决问题。
曾在医百科技负责大数据平台整体产品建设;在京东科技,参与钼媒数据平台、京东数据联盟、JDT宏观经济数据库的建设;在极光,负责商业地理数据分析产品。工作涉及数据采购、采集、挖掘、数仓、隐私计算、数据服务、指标体系、数据分析等环节。
工作经历
2021-04-01 -2022-12-31医百科技高级数据产品经理
工作内容:负责搭建医百大数据平台,涵盖 数据采集、主数据管理、数仓、数据服务、标签、数据分析 几大产品。 • 数据采集:1、Spider:完成 医疗POI、医院、医生、药械、医学文献、医学会议、临床研究、国自然项目、线上问诊、患者评价等内容的外部数据采集、清洗;建立了会议海报非结构化数据智能提取系统。 2、Track:定义了会议、活动的埋点事件及属性。 • 主数据管理MDM:支持对 医院、医生、药品、会议海报、数据字典 进行人工编辑、审核,创新性的将MDM的人工审核编辑机制与DW的DIM层进行整合。 • 数仓DW:1、完成数仓主题域规划,和技术协同制定了数仓分层标准。 2、提供了 人、机构 的OneID产品逻辑。 3、DIM及DMD层数据模型。 • 指标体系 OneIndex:采用OSM-UJM方法论结合AARRR模型建立指标体系。 • 数据服务One Service:提供人、机构的ID-Mapping查询服务;支持对数仓模型按主题进行组合查询,从而避免陷入为业务进行接口定制。 • 标签Tag:加工60多个HCP类型标签,完成标签系统规划及产品上线,支持衍生标签、组合标签。
2018-08-01 -2021-03-31京东科技数据产品岗(P7)
京东数据联盟(数字营销生态部) 项目介绍:2019年末由京东科技发起,联合京东投资公司共同参与,采用SOTA的联邦学习技术进行跨域建模,形成符合安全、合规机制的数据流动共享使用。 工作内容: • 数据联盟牵头组织:外部洽谈对接 智慧足迹、Mob Data、Wifipix等公司,内部协调智能城市、技术中台、风控中心、数据资产、法务合规、政府合作等部门,推进数据合作、产品研发及模型落地。 • 联邦平台开发协调:内部组织智能城市、技术中台、数据资产部门,组合产品层、算法层、数据层能力,推进京东科技自有知识产权的联邦学习平台开发。 • 合规方案探索:与合规部、政府合作部,基于申报的创新项目,探索多种合规可能性。 • 广告营销联邦数据模型方案设计及落地推进。 京东钼媒数据平台(数字营销生态部,数据集市) https://daas.jd.com/ 工作内容:伴随部门成立,作为数据平台主要产品经理参与京东钼媒数据平台建设,以满足线下广告营销精准化数据需求,从而支持部门实现其核心商业逻辑。 宏观经济数字化 项目介绍:建立宏观经济数据库及AI经济学家,对内提升投研效率,对外提供宏观经济自动化解
2016-03-01 -2017-07-31万达网络科技数据产品经理
广告及营销数据管理系统(DMP) | Project Owner 简介:DMP系统承接广告与营销相关的各类数据需求,从而实现提升ROI、精准营销。具体需求场景如广告定向投放、CTR预估、营销人群放大、用户画像等。 工作成果: • BI模块:支持投放效果监测,按时间/地区/频道等多维度进行上卷下钻分析; • 标签加工:对接集团各部门数据,以及广告沉淀数据,加工基础标签、行为标签; • 用户画像:支持根据标签组合圈选人群,支持宏观及微观画像,以帮助改进营销策略;
2015-06-01 -2016-03-01艾花科技创始人
项目介绍:自主创业项目,从最初的想法出发,到用户调研、需求分析、产品设计、研发,陆续上线Web端产品功能,并和创业伙伴一起进行多渠道内容运营。 产品层面:通过Drupal搭建了一个家庭园艺线上社区,为花友提供在线植物品种库、花事记录、小组讨论等功能。将UGC得到的内容***、微博等多渠道推送,提交搜索引擎收录,形成“信息收集—内容加工—消费引流”的功能闭环。 产品设计: https://www.proginn.com/w/1478549 项目开发: https://www.proginn.com/w/1478699
2013-01-01 -2015-05-30东方园林互联网产品经理
工作内容: 1)设计师网(筑栖)Web端、桌面端产品经理。完整走完商业计划、市场调研、产品设计、开发测试、运营全流程,并完成设计师网上线及运营。 2)花联网APP产品及部分运营工作。
教育经历
2006-09-01 - 2009-06-30华中农业大学园林植物与观赏园艺硕士
统招研究生,双证,学信网可查。
2002-09-01 - 2006-06-30福建农林大学 园艺本科
统招本科学历,双证,学信网可查。
技能
工作内容:负责主导公司大数据平台产品线,涵盖 数据采集、主数据管理、数仓、数据服务、标签、数据分析 几大产品。 •数仓DW:采用维度建模。 1、完成数仓主题域规划,和技术协同制定了数仓分层标准。 2、提供了 人、机构 的OneID产品逻辑,采用图计算进行人的ID-Mapping,采用业务规则+NLP模型进行医疗机构唯一识别与关联。 3、DIM及DMD层涵盖内容:HCP(医生、护士、药师、技师、销售代表、患者、社交关系)、HCO(组织机构、医疗机构、药企、学会)、医学知识(药品、疾病、不良反应、药理分类、剂型)、学术(文献、会议、临床研究、病例)、流量(问诊、患者评价、问卷)、地点(行政区、POI)、杂项(杂项维度、日期)。4、DWS层涵盖内容:企业汇总、学者汇总、KOL汇总、观众行为汇总、文献汇总、会议汇总、活动汇总、问诊汇总。 •指标体系 OneIndex:采用OSM-UJM方法论结合AARRR模型,和业务方一起整理业务过程的目标、痛点、度量体系及分析逻辑,建立指标体系(含58个原子指标、70+项维度),并在数仓DWS层建立了部分指标汇总表。 •数据服务One Service:提供人、机构的ID-Mapping查询服务;支持对数仓模型按主题进行组合查询,从而避免陷入为业务进行接口定制。 •标签Tag:加工60多个HCP类型标签,完成标签系统规划及产品上线,支持衍生标签、组合标签,支持人群操作。分别评价医生对卫生机构、学术、患者、药企的影响力。基于医学知识图谱,预测医生所属科室,挖掘医生关注疾病、症状、药品、靶点、治疗方案、操作等标签。
# 工作内容 • 数据联盟牵头组织:外部洽谈对接 运营商、图商、SDK 类企业,内部协调各业务部门、技术中台、风控中心、数据资产、法务合规、政府合作等部门,推进数据合作、产品研发及模型落地。 • 联邦平台开发协调:内部组织各技术中台部门,组合产品层、算法层、数据层能力,推进企业自有知识产权的联邦学习平台开发。 • 合规方案探索:与合规部、政府合作部,基于申报的创新项目,探索多种合规可能性。 • 广告营销联邦数据模型方案设计及落地推进。 # 需求背景 ## 技术背景 2019年,联邦学习做为数据合作的新兴技术,开始在国内传播。我对其进行了学习研究,得到以下结论: 传统数据打通:把数据整合到一方,利用数据进行训练并得到模型。 联邦学习:数据拥有方在不用给出己方原始数据的情况下,也可进行联合训练(交换加密训练参数)并得到足够准确的模型(与传统数据打通建立模型的差距很小),且训练目标为非个体信息或经过用户授权,各方无法反推他方原始数据。 纵向联邦学习 各方数据情况:ID重叠大,特征重叠小。 合规约束:特征X属于隐私数据、商业机密,不可出库;预测Y'的过程,经过用户授权或Y'不属于隐私。 使用场景:A有特征,B有部分训练样本Y及特征维度。需要在A数据不出库的条件下,优化B的预测模型。 解决问题:通过纵向联邦学习增多特征维度,帮助数据方B预测Y'。 横向联邦学习 各方数据情况:ID重叠小,特征重叠大。 合规约束:无法将ID匿名化+特征X 出库,因为特征X本身也属于可识别到个体的信息,或泄露商业机密,例如 个体轨迹、资金记录、通话记录、门店流水、租金等。 使用场景:各方原先都有预测模型,但因为样本都不够多,模型缺乏训练,模型参数不是最优。 解决问题:通过横向联邦学习增多训练样本,优化各方的模型参数。 ## 业务痛点 问题:由于法规禁止用户隐私信息交换,如何在保护个体信息不被泄露的前提下,通过交换人群ID包,跨越两个及以上数据合作方,进行人群数量统计、群体画像输出? 1、网点TA人群估算支持度差 问题描述:目前TA人群估算仅在各个数据源单侧可用,但每个数据源都存在缺陷:如标签维度不足、特定场景/城市样本渗透率不足、数据滞后等。业务侧希望在全国范围内,满足主要重点行业的目标人群分布估算。结论:行业标签的维度数量、整体样本量级的要求,无法通过单个数据源满足。且根据法务合规限制,我们不可以在个体ID级别对标签进行直接融合。 问题等级:重要紧急 问题解法:采用联邦学习方法对接多方数据源,在POI层面丰富可用的标签维度和样本量级。 2、网点POI客流估算不准 问题描述:目前用于估算网点客流的数据源,自有报点数据存在稀疏问题及场景限制问题,尤其是在出行、消费类场景不可用。运营商数据存在定位精度低(200m以上),数据提供滞后30~50天,一些城市渗透率低等问题。目前我们已对接运营商客流人数,并也使用自有报点推算出总人数,可初步满足需求。 问题等级:重要不紧急 问题解法:通过对接多方数据源,进行更准确的网点客流估算。 3、门店POI客流人数、TA人数不可用 问题描述:目前无论是自有数据、各大图商、SDK,都无法提供相对准确的到店数据。XXX可提供稀疏的真实到店数据;图商提供POI场景数据;SDK合作伙伴可提供到商城数据;自有媒体硬件 可提供准确但是数量有限的到店客流数据。 问题等级:重要不紧急 问题解法:可以结合多方数据源建立门店客流估算模型。 4、采用传统联合建模存在缺陷 需正样本(Y)出库,存在合规风险或数据资产流失 各方都可建立完整模型,进行对外售卖,造成模型资产流失 上层采用集成学习方式,总体模型效果非最优 ## 需求场景 [P1]联合TA浓度 应用场景: 广告投放选点:找出各重点行业广告目标客户群体的工作地、居住地、到访地,给出人群浓度值对比,从而让线下广告命中高浓度目标人群。 门店选址:联合使用多方数据标签、人群行为记录,测算目标人群聚集最高的区域。 [P0]广告营销-跨场景效果测算 认知→吸引环节:线下广告曝光人群,引流到线上商城的人数比例;线下/线上广告、曝光人群,引流到商场、门店的人数比例;线下广告曝光人群,发生扫码行为的人数比例; 吸引→行动环节:引流到商场、门店的人群,发生交易支付的人数测算。 行动→拥护环节:引流到商场、门店的人群,发生多次交易,或在线上参与品牌话题的人数。 ## 项目成果 • 完成数据联盟第一个联邦项目落地,实现POI客流预测三方联合训练及推理; • 日度POI客流预测P30指标达90%,服务6个内外部系统; • 节省数据采买经费上亿元; • 获得中国信息通信院&中国通信标准协会 2020数据资产管理大会-隐私计算优秀案例奖 https://mp.weixin.qq.com/s/UYGZ7M-tK1lY2N8YyZdvcA
简介:艾花 XFlora 是一个家庭园艺社区,愿景是普及园艺,让城市生活充满绿色。和创业伙伴一起,从最初的想法点子出发,到用户调研、需求分析、产品设计、研发,陆续上线Web端产品功能,并多渠道内容运营。商业模式有过几轮论证和迭代,最终因市场规模太小,停止继续投入。 需求场景:为花友提供 植物品种库、花事记录、小组讨论、园艺手册、个人主页 等产品模块。 -------------------------------- 开发实现: 基于Drupal进行二次开发。 后台功能:使用了150+ 第三方模块实现,主要工作在于各模块的寻找、测评、调配、流程衔接,部分小模块手工开发实现; 前台实现:使用自定义主题模板进行覆写,先采用了Zen主题,后来切换到了Bootstrap3框架。 主要工作有: 1)植物、照片、花事、小组、书籍等实体的数据表定义,主要基于CCK系列模块; 2)植物库、花事、小组、收藏等功能研发,主要基于Views系列模块+主题覆写; 3)Solr搜索集成; 4)用户注册、验证、发帖、收藏等流程调优; 5)SEO关键词分析及调配; 6)七牛云CDN集成; 7)CKeditor集成与定制; 8)主题模板覆写与前端开发,采用Bootstrap3框架; 9)服务器环境配置,Mysql缓存配置; 10)邮件系统集成; 运行环境: 系统:阿里云ECS 软件:LNMP + Solr + Drupal 7 其它配套:七牛云CDN,GrowingIO数据监测 ------------- 产品设计部分,详见: https://www.proginn.com/w/1478549