法律检索系统

我要开发同款
chigee542023年03月11日
252阅读
所属分类IT

作品详情

(1)提出基于中性样本的深度语义表示方法。针对对比学习中正例样本过于相似,弱化了对比效果的问题,本文将对比损失与排序损失函数进行结合,创新性地提出构造中性样本来辅助正负样本的训练,优化句向量语义表示的空间分布。实验表明,该方法的性能在STS数据集上超越了当时最好的SimCSE模型。
(2)提出基于注意力交互的排序学习方法。该方法使用排序学习来对长文本句向量进行更精确的排序,首先以Pointwise方式微调模型,将其作为交互向量的编码器,然后构建排序注意力模型,将交互向量以Pairwise方式进一步优化排序。实践表明,该方法的性能在LeCaRD数据集上超越了Lawformer,在本系统中有助于法律长文本更精确的排序。
(3)根据上述提出的两个方法,实现检索的粗排与精排。粗排阶段利用语义表示方法对相似案例进行召回,由于该方法属于双塔结构的无监督语义编码器,可以提前存储句向量,从而实现快速召回。精排阶段将召回的100个相似案例利用长文本排序方法进行重排,进一步提高排序的精度。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论