基于word2vec的问题主题词向量识别

我要开发同款
superwg12023年07月18日
76阅读
所属分类IT文创

作品详情

问题主题识别是问答系统中的重要步骤,可以定位问题领域,缩小查询范围精化答案。本研究提出引入外部 word2vec 维基百科词嵌入的英文文本分类方法,并针对 MadSci 上三类主题的问题集进行了相关试验。该方法首先训练维基百科语料库获得 word2vec 词向量字典,其次,对问题集进行数据清洗,进行转小写,去标点,词形还原等操作。建立基于词向量的特征提取方法,例如,完全平均法,根据词性加权,根据词长加权等。最后通过 SVM 经典分类器和 KNN 分类器对其进行分类实验。试验结果表明,本研究可以有效的进行英文文本分类,且分类效果显著高于没有引入 word2vec 对照试验的分类结果。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论