基于联邦学习的多方数据联盟

我要开发同款
Yuis2023年10月04日
157阅读
所属分类数据交易、数据要素、数据联盟、联邦学习

作品详情

# 工作内容
• 数据联盟牵头组织:外部洽谈对接 运营商、图商、SDK 类企业,内部协调各业务部门、技术中台、风控中心、数据资产、法务合规、政府合作等部门,推进数据合作、产品研发及模型落地。
• 联邦平台开发协调:内部组织各技术中台部门,组合产品层、算法层、数据层能力,推进企业自有知识产权的联邦学习平台开发。
• 合规方案探索:与合规部、政府合作部,基于申报的创新项目,探索多种合规可能性。
• 广告营销联邦数据模型方案设计及落地推进。

# 需求背景
## 技术背景
2019年,联邦学习做为数据合作的新兴技术,开始在国内传播。我对其进行了学习研究,得到以下结论:
传统数据打通:把数据整合到一方,利用数据进行训练并得到模型。
联邦学习:数据拥有方在不用给出己方原始数据的情况下,也可进行联合训练(交换加密训练参数)并得到足够准确的模型(与传统数据打通建立模型的差距很小),且训练目标为非个体信息或经过用户授权,各方无法反推他方原始数据。

纵向联邦学习
各方数据情况:ID重叠大,特征重叠小。
合规约束:特征X属于隐私数据、商业机密,不可出库;预测Y'的过程,经过用户授权或Y'不属于隐私。
使用场景:A有特征,B有部分训练样本Y及特征维度。需要在A数据不出库的条件下,优化B的预测模型。
解决问题:通过纵向联邦学习增多特征维度,帮助数据方B预测Y'。

横向联邦学习
各方数据情况:ID重叠小,特征重叠大。
合规约束:无法将ID匿名化+特征X 出库,因为特征X本身也属于可识别到个体的信息,或泄露商业机密,例如 个体轨迹、资金记录、通话记录、门店流水、租金等。
使用场景:各方原先都有预测模型,但因为样本都不够多,模型缺乏训练,模型参数不是最优。
解决问题:通过横向联邦学习增多训练样本,优化各方的模型参数。

## 业务痛点
问题:由于法规禁止用户隐私信息交换,如何在保护个体信息不被泄露的前提下,通过交换人群ID包,跨越两个及以上数据合作方,进行人群数量统计、群体画像输出?

1、网点TA人群估算支持度差
问题描述:目前TA人群估算仅在各个数据源单侧可用,但每个数据源都存在缺陷:如标签维度不足、特定场景/城市样本渗透率不足、数据滞后等。业务侧希望在全国范围内,满足主要重点行业的目标人群分布估算。结论:行业标签的维度数量、整体样本量级的要求,无法通过单个数据源满足。且根据法务合规限制,我们不可以在个体ID级别对标签进行直接融合。
问题等级:重要紧急
问题解法:采用联邦学习方法对接多方数据源,在POI层面丰富可用的标签维度和样本量级。

2、网点POI客流估算不准
问题描述:目前用于估算网点客流的数据源,自有报点数据存在稀疏问题及场景限制问题,尤其是在出行、消费类场景不可用。运营商数据存在定位精度低(200m以上),数据提供滞后30~50天,一些城市渗透率低等问题。目前我们已对接运营商客流人数,并也使用自有报点推算出总人数,可初步满足需求。
问题等级:重要不紧急
问题解法:通过对接多方数据源,进行更准确的网点客流估算。

3、门店POI客流人数、TA人数不可用
问题描述:目前无论是自有数据、各大图商、SDK,都无法提供相对准确的到店数据。XXX可提供稀疏的真实到店数据;图商提供POI场景数据;SDK合作伙伴可提供到商城数据;自有媒体硬件 可提供准确但是数量有限的到店客流数据。
问题等级:重要不紧急
问题解法:可以结合多方数据源建立门店客流估算模型。

4、采用传统联合建模存在缺陷
需正样本(Y)出库,存在合规风险或数据资产流失
各方都可建立完整模型,进行对外售卖,造成模型资产流失
上层采用集成学习方式,总体模型效果非最优

## 需求场景
[P1]联合TA浓度
应用场景:
广告投放选点:找出各重点行业广告目标客户群体的工作地、居住地、到访地,给出人群浓度值对比,从而让线下广告命中高浓度目标人群。
门店选址:联合使用多方数据标签、人群行为记录,测算目标人群聚集最高的区域。

[P0]广告营销-跨场景效果测算
认知→吸引环节:线下广告曝光人群,引流到线上商城的人数比例;线下/线上广告、曝光人群,引流到商场、门店的人数比例;线下广告曝光人群,发生扫码行为的人数比例;
吸引→行动环节:引流到商场、门店的人群,发生交易支付的人数测算。
行动→拥护环节:引流到商场、门店的人群,发生多次交易,或在线上参与品牌话题的人数。

## 项目成果
• 完成数据联盟第一个联邦项目落地,实现POI客流预测三方联合训练及推理;
• 日度POI客流预测P30指标达90%,服务6个内外部系统;
• 节省数据采买经费上亿元;
• 获得中国信息通信院&中国通信标准协会 2020数据资产管理大会-隐私计算优秀案例奖 https://mp.weixin.qq.com/s/UYGZ7M-tK1lY2N8YyZdvcA
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论