工业级中英文分词系统

我要开发同款
Snowball952023年04月04日
162阅读
开发技术python
所属分类自然语言、分词、数据处理、深度学习

作品详情

项目职责:独立完成项目从0-1的设计工业级的中英文分词系统
算法筛选:深入分析项目难点,针对英文不能使用常规方法切分及新登陆词识别问题,提出采用制定提取模版、利用HMM模型和CRF模型进行序列标注的方式实现分词规范化,同时融入新词发现模型和NER词典,提升新登录词发现能力。
策划优化:通过CRF、BiLSTM_CRF等解码状态设置,降低计算难度,采用前缀词增加等方式,避免不必要搜索,提升运行速度。
词图构建:合理进行优先级布局,加入复合词典,由正则词典、专业领域词典、实体识别模型、序列标注模型、核心通用词典等,完成词图基础构建,基于此计算最佳路径,从根本解决问题
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论