点击空白处退出提示
作品详情
开发环境:pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive
项目描述:通过收集到的明星信息,对已代言明星进行舆情监控以及热度分析,把握艺人实时热度变化,通过代言人优选,根据品牌调性以及明星调性的相符程度,筛选品牌意向代言人,提高决策效率。
数据流向: MongoDB->hive->spark(计算)->mssql
负责模块:
微博舆情分析
(1) 使用mongo-spark-connector官方连接器,通过spark读取MongoDB中微博评论数据,并将数据保存到原始层,确保没问题后删除MongoDB中数据,缓解MongoDB压力。
(2) 使用jieba对微博评论内容进行分词,并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存,其中分词结果使用array格式保存。
(3) 通过集群框架,实现tfidf算法
(4) 对形容词使用tfidf算法分析热词,对情感分析结果按区间进行统计并计数。
(5) 将最终结果使用foreachPartition算子,存入mssql临时数据表。
(6) 使用MERGE语句对线上表进行更新。
全部新闻信息展示(大文本搜索)
(1) 将新闻类数据(百度新闻、头条新闻、微信公众号等)导入hive原始层,删除mongodb数据。
(2) 对数据进行清,清洗后存入hive。
(3) 对新闻数据进行分析(nlp、统计等),结果导入mssql数据表
(4) 按照需求将需要的字段数据导入ES中(新闻内容、阅读量、链接、平台等)
(5) 使用java编写查询方法(按条件查询、分页等),供前端接口调取。
微博用户画像
(1) 将原始采集的微博用户数据保存到原始层,对数据进行初步的清洗,之后保存到hive。
(2) 对明星进行微博用户画像分析,包括年龄、省份、城市、性别、职业、标签等。
(3) 对数据进行偏好值计算,并将最终结果通过foreachPartition算子导入前端数据表。
数据报警
(1)对采集数据进行查缺,发现漏采数据,通过邮件通知相关负责人进行补采。
(2)对计算程序进行检测,发现日志报错,通过邮件将错误信息发送给相关负责人,通知查找错误原因。
(3)对数据结果进行检验,主要对线上表进行检验。
(4)编写自动查找数据问题程序,当数据出现问题时,运行该程序,自动查找数据问题。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论