金融社媒数据舆情分析项目

我要开发同款
资深对话系统研发2024年02月18日
365阅读
开发技术自然语言处理、机器学习、深度学习、系统架构、python
所属分类AI、信息抽取、舆情分析、ChatGPT、大模型

作品详情

1、项目描述
为了提高对互联网海量源声中舆情的分析能力,本项目构建了一个社媒数据的热点挖掘与观点提取系统。系统的主要目标为:
(1)对于海量互联网源声进行过滤,保留相关数据;
(2)基于过滤结果,对源声进行事件抽取与编码,聚类形成业务热榜;
(3)对于各业务热榜进行观点分类,得到热点事件的用户舆情。
2、主要工作
(1)根据任务特点,从零训练了中文GPT-4模型用于源声数据的事件生成,通过三个阶段分别训练模型的中文语言建模能力,通用摘要能力和针对任务的事件生成能力;
(2)分别训练了用于领域过滤,观点分类的模型,引入Prompt Learning,对比学习等技术提升模型性能;
(3)尝试使用中文大模型对热点事件模块进行优化,提升热榜准确率和可读性;
(4)完成服务的工程代码开发,各功能模块解耦,满足业务方的实际使用场景,部署服务到MLOPs平台。
3、项目成果
(1)截至目前,文本过滤模块和观点分类模块准确率均达到90%以上;
(2)舆论热榜模块聚类簇准确率达到87%,相较于原服务准确率提升20%;
(3)服务交付相关业务使用。
4、个人收获
(1)深度参与构建真实场景下的NLP应用系统,完整地进行了"数据准备-模型构建-训练调优-工程开发-测试验收服务上线"的过程;
(2)通过本项目,对预训练语言模型的应用能力和不同任务的综合能力得到进一步锻炼;对企业中的模型开发流程和工具平台有一定了解。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论