所用技术:spark、hadoop、hive开发环境:pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive项目描述:通过收集到的明星信息,对已代言明星进行舆情监控以及热度分析,把握艺人实时热度变化,通过代言人优选,根据品牌调性以及明星调性的相符程度,筛选品牌意向代言人,提高决策效率。数据流向: MongoDB->hive->spark(计算)->mssql负责模块: 微博舆情分析(1) 使用mongo-spark-connector官方连接器,通过spark读取MongoDB中微博评论数据,并将数据保存到原始层,确保没问题后删除MongoDB中数据,缓解MongoDB压力。(2) 使用jieba对微博评论内容进行分词,并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存,其中分词结果使用array格式保存。(3) 通过集群框架,实现tfidf算法(4) 对形容词使用tfidf算法分析热词,对情感分析结果按区间进行统计并计数。(5) 将最终结果使用foreachPartition算子,存入mssql临时数据表。(6) 使用MERGE语句对线上表进行更新。 全部新闻信息展示(大文本搜索)(1) 将新闻类数据(百度新闻、头条新闻、微信公众号等)导入hive原始层,删除mongodb数据。(2) 对数据进行清,清洗后存入hive。(3) 对新闻数据进行分析(nlp、统计等),结果导入mssql数据表(4) 按照需求将需要的字段数据导入ES中(新闻内容、阅读量、链接、平台等)(5) 使用java编写查询方法(按条件查询、分页等),供前端接口调取。 微博用户画像(1) 将原始采集的微博用户数据保存到原始层,对数据进行初步的清洗,之后保存到hive。(2) 对明星进行微博用户画像分析,包括年龄、省份、城市、性别、职业、标签等。(3) 对数据进行偏好值计算,并将最终结果通过foreachPartition算子导入前端数据表。 数据报警(1)对采集数据进行查缺,发现漏采数据,通过邮件通知相关负责人进行补采。(2)对计算程序进行检测,发现日志报错,通过邮件将错误信息发送给相关负责人,通知查找错误原因。(3)对数据结果进行检验,主要对线上表进行检验。(4)编写自动查找数据问题程序,当数据出现问题时,运行该程序,自动查找数据问题。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论