个人介绍
精通算法:人工智能、机器学习、深度学习、自然语言处理等;
项目经验丰富:文本检索系统、对话系统、文本生成项目等;
竞赛经验丰富:法研杯类案检索三等奖;CLEF写作风格识别第一名;数学建模国际一等奖;
科研经验丰富:熟悉对抗训练、对比学习、提示学习等NLP前沿技术;
工程能力强:熟练应用如BERT、GPT2和Longformer等预训练语言模型,能修改模型;
表达能力强:2021CLEF国际会议进行英文口头报告、2021粤港澳大湾区研究生论坛进行学术分享;
现有成果:2篇EI论文,1项发明专利。
工作经历
2023-03-01 -2023-03-10佛山科学技术学院项目经理
“基于深度语义匹配和排序学习的法律检索系统研究与应用”。设计一个法律检索系统,实现类案检索、法律法规检索等功能。
教育经历
2020-09-01 - 2023-06-01佛山科学技术学院软件工程硕士
从事机器学习,深度学习,自然语言处理
技能
开发并实现基于深度语义表示和排序学习的法律检索系统。通过在6000万条法律文书上测试表明,其检索速度与Elasticsearch搜索引擎相当,能够实现实时搜索,且由于所提出方法分为粗排与精排两个阶段,将会使得检索性能更加稳定。
提出基于注意力交互的排序学习方法。该方法使用排序学习来对长文本句向量进行更精确的排序,首先以Pointwise方式微调模型,将其作为交互向量的编码器,然后构建排序注意力模型,将交互向量以Pairwise方式进一步优化排序。实践表明,该方法的性能在LeCaRD数据集上超越了Lawformer,在本系统中有助于法律长文本更精确的排序。
(1)提出基于中性样本的深度语义表示方法。针对对比学习中正例样本过于相似,弱化了对比效果的问题,本文将对比损失与排序损失函数进行结合,创新性地提出构造中性样本来辅助正负样本的训练,优化句向量语义表示的空间分布。实验表明,该方法的性能在STS数据集上超越了当时最好的SimCSE模型。 (2)提出基于注意力交互的排序学习方法。该方法使用排序学习来对长文本句向量进行更精确的排序,首先以Pointwise方式微调模型,将其作为交互向量的编码器,然后构建排序注意力模型,将交互向量以Pairwise方式进一步优化排序。实践表明,该方法的性能在LeCaRD数据集上超越了Lawformer,在本系统中有助于法律长文本更精确的排序。 (3)根据上述提出的两个方法,实现检索的粗排与精排。粗排阶段利用语义表示方法对相似案例进行召回,由于该方法属于双塔结构的无监督语义编码器,可以提前存储句向量,从而实现快速召回。精排阶段将召回的100个相似案例利用长文本排序方法进行重排,进一步提高排序的精度。