汽车之家,淘宝,文档查重,定损定价系统

我要开发同款
剑指者2022年09月22日
179阅读

作品详情

文档查重项目
1、从数据库(Oracle数据库)里提取数据集
2、分词工具由北大pkuseg替换jieba分词,该分词工具准确率高,能分出包括英文的专有名词,能提高文档相似度效果。
3、把整篇文档内容放入模型训练,改成提取文档中的主要内容(体现文档的核心思想),过滤掉跟文档核心思想无关的噪音内容,分词后提取关键词并放入模型训练,大大提高最终效果。
4、采用聚类的方式统计所有文档的模板类型,收集所有模板的格式,按模板的格式提取文档的大段落。
5、提取大段落中的每一个中段:首先提取自然句(以句号和换行符作为判断依据),再以自然句前面的序号作为划分依据,按照数据结构切分大段落,获取中段。
6、以中段作为自然段落,源文档的自然段落和返回文档的自然段落计算相似度,获取到高于阈值(0.8)的自然段落。
7、从源文档的自然段落和返回文档的自然段落中提取含有相同的短语,用于高亮显示于前端。
8、采用多进程分布式处理所有文档(提取核心段落,分词,提取关键词等操作),速度提升90%。
9、增加日志输出,增加定时器,定时在凌晨3点更新模型并自动加载模型。
10、整个项目应用的流程:输入一个段落或整篇文档,从模型中返回N篇最相似的文档(id和相似度值),根据id从数据库中提取返回文档的内容,从返回文档的内容中提取每一个中段,与返回文档中的每一个中段两两比较,提取相似度高于阈值0.8的中段;再从中段中提取同样的短语(递归算法),高亮显示于前端。
11、在linux服务器上部署项目,安装并配置环境,后台运行接口服务。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论