新闻文本分类

我要开发同款
ernest_zhang2024年05月18日
124阅读
开发技术特征处理、自然语言处理、深度学习、python

作品详情

项目主要目的为使用 人工智能技术对新闻进行分类,减少人力成本提高效率。
1. 模型主要分为以下5个步骤进行:数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。
2. 使用python及其相关科学库如:numpy、pandas等技术开发,选择的算法模型有:词袋模型BOW(Bag of Words)、词向量(Word Embedding)、神经网络,采用交叉验证的方式训练模型,来降低过拟合情况,最后对上述三个模型的结果组合加权平均。
3. 数据爬取主要使用Python requests库。
4. 使用Jieba中文分词库对中文进行分词处理,来完成数据选择与读取。
5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。
6. 使用开源TestCNN和TestRNN模型对数据进行处理。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论