舆情采集分析系统

我要开发同款
杨明明2022年08月05日
100阅读

作品详情

一、预打标签
对发帖ID进行 央级主流媒体、地方级主流媒体、市场化媒体、自媒体的标注

二、数据处理需求
2.1数据库整体需求
(1)数据输出格式:SQL 和 csv
(2)为了高效查询,需要将5个层级的数据关联
(可以使用关联表,在话题层级需要关联事件ID;在帖子层级需要关联话题ID;在评论层级需要关联帖子ID;在子评论层级需要关联评论ID)

2.2文本处理需求【帖子文本、评论文本、子评论文本】
(1)统计文本长度
(2)文本词性标注统计(具体为名词、动词、形容词、副词词数统计)
(3)文本情感词分类统计(具体为 正面、中立、负面词数统计,更多累;或已实现的?类分类)
(4)提取文本的主情感(目前可实现的情感分类几类?正面、中立、负面)
(5)计算文本的可读性(一般使用何种方法?fog指标?)

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论