文本匹配模型

我要开发同款
豆子君2022年09月17日
144阅读

作品详情

任务: 在图片搜索业务场景下,计算 query 和图片资源在文本维度的相关性,指导排序。
挑战: 分析线上问题时发现,基线模型很难解决 query 和 title(选取域 =title realtitle alt ct0)相似但实
体不同的文本对,例如“杨幂照片”和“杨幂和刘诗诗”,模型容易判断文本对为匹配。
优化: 从引入领域 post-pretrain、核心 term 匹配交互、字词 embedding 混合等方法进行优化相关性模
型。
• 数据集: 75w Rank 训练集, 10w Rank 测试集
效果: 考虑线上应用的性能,将 24 层模型蒸馏为 4 层模型。采用数据蒸馏的方式,预测 1.2E 数据打
分,使用 pointwise 进行训练,指标为 auc:0.846|pnr:2.907(相比基线 +0.063|+0.273),已完成上线。
技术: Python, Hadoop, Shell, Pre-training, Transformers, Text Matching
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论