点击空白处退出提示
作品详情
(1)长文本分类,包括适用法律、转让、赔偿、终止权利、权限、信息安全、委托和担保等类别
(2)命名实体识别,包括乙方、主管、参与方等
实现了合同PDF文档自动化抽取关键信息到数据库,便于文档的管理、查询、使用
2. 我负责算法部分:
(1)使用OCR对PDF文档解析
(2)使用NER抽取实体公司名,与公司名词表进行相似度计算,匹配最相似实体
(3)使用BERT模型finetune,得到适用于该场景的分类模型,对文本进行分类,找到所属标签
(4)将抽取到的信息存入数据库
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论