明星智库-定制代言人选择系统的用户价值

所用技术：spark、hadoop、hive开发环境：pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive项目描述：通过收集到的明星信息，对已代言明星进行舆情监控以及热度分析，把握艺人实时热度变化，通过代言人优选，根据品牌调性以及明星调性的相符程度，筛选品牌意向代言人，提高决策效率。数据流向： MongoDB->hive->spark(计算)->mssql负责模块： 微博舆情分析（1）使用mongo-spark-connector官方连接器，通过spark读取MongoDB中微博评论数据，并将数据保存到原始层，确保没问题后删除MongoDB中数据，缓解MongoDB压力。（2）使用jieba对微博评论内容进行分词，并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存，其中分词结果使用array格式保存。（3）通过集群框架，实现tfidf算法（4）对形容词使用tfidf算法分析热词，对情感分析结果按区间进行统计并计数。（5）将最终结果使用foreachPartition算子，存入mssql临时数据表。（6）使用MERGE语句对线上表进行更新。 全部新闻信息展示（大文本搜索）（1）将新闻类数据（百度新闻、头条新闻、微信公众号等）导入hive原始层，删除mongodb数据。（2）对数据进行清，清洗后存入hive。（3）对新闻数据进行分析（nlp、统计等），结果导入mssql数据表（4）按照需求将需要的字段数据导入ES中（新闻内容、阅读量、链接、平台等）（5）使用java编写查询方法（按条件查询、分页等），供前端接口调取。 微博用户画像（1）将原始采集的微博用户数据保存到原始层，对数据进行初步的清洗，之后保存到hive。（2）对明星进行微博用户画像分析，包括年龄、省份、城市、性别、职业、标签等。（3）对数据进行偏好值计算，并将最终结果通过foreachPartition算子导入前端数据表。 数据报警（1）对采集数据进行查缺，发现漏采数据，通过邮件通知相关负责人进行补采。（2）对计算程序进行检测，发现日志报错，通过邮件将错误信息发送给相关负责人，通知查找错误原因。（3）对数据结果进行检验，主要对线上表进行检验。（4）编写自动查找数据问题程序，当数据出现问题时，运行该程序，自动查找数据问题。

明星智库-定制代言人选择系统的用户价值

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐