明星智库-定制代言人选择系统的用户价值

我要开发同款
mrpora2023年09月26日
92阅读
开发技术java
所属分类spark、算法、大数据、数据采集

作品详情

所用技术:spark、hadoop、hive
开发环境:pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive
项目描述:通过收集到的明星信息,对已代言明星进行舆情监控以及热度分析,把握艺人实时热度变化,通过代言人优选,根据品牌调性以及明星调性的相符程度,筛选品牌意向代言人,提高决策效率。
数据流向: MongoDB->hive->spark(计算)->mssql
负责模块:
 微博舆情分析
(1) 使用mongo-spark-connector官方连接器,通过spark读取MongoDB中微博评论数据,并将数据保存到原始层,确保没问题后删除MongoDB中数据,缓解MongoDB压力。
(2) 使用jieba对微博评论内容进行分词,并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存,其中分词结果使用array格式保存。
(3) 通过集群框架,实现tfidf算法
(4) 对形容词使用tfidf算法分析热词,对情感分析结果按区间进行统计并计数。
(5) 将最终结果使用foreachPartition算子,存入mssql临时数据表。
(6) 使用MERGE语句对线上表进行更新。
 全部新闻信息展示(大文本搜索)
(1) 将新闻类数据(百度新闻、头条新闻、微信公众号等)导入hive原始层,删除mongodb数据。
(2) 对数据进行清,清洗后存入hive。
(3) 对新闻数据进行分析(nlp、统计等),结果导入mssql数据表
(4) 按照需求将需要的字段数据导入ES中(新闻内容、阅读量、链接、平台等)
(5) 使用java编写查询方法(按条件查询、分页等),供前端接口调取。
 微博用户画像
(1) 将原始采集的微博用户数据保存到原始层,对数据进行初步的清洗,之后保存到hive。
(2) 对明星进行微博用户画像分析,包括年龄、省份、城市、性别、职业、标签等。
(3) 对数据进行偏好值计算,并将最终结果通过foreachPartition算子导入前端数据表。
 数据报警
(1)对采集数据进行查缺,发现漏采数据,通过邮件通知相关负责人进行补采。
(2)对计算程序进行检测,发现日志报错,通过邮件将错误信息发送给相关负责人,通知查找错误原因。
(3)对数据结果进行检验,主要对线上表进行检验。
(4)编写自动查找数据问题程序,当数据出现问题时,运行该程序,自动查找数据问题。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论