点击空白处退出提示
作品详情
项目职责:
1. 参与相关数据采集以及主题设计和开发,参与数据仓库的搭建
2. 负责高频浏览主题的建设,负责高频浏览主题的数据填充
3. 用户画像模块:结合用户的基本信息,并从日志中抽取用户的各种行为信息,通过当天的数据和历史数据,抽象出一个用户的全貌,通过不断的对用户打标签,更加全面的了解用户,进而为推荐做数据支持
4. 负责相关指标的实现,为用户专属推荐做数据支持,生成用户的追踪报表,分析用户满意度,统计浏览量前20的漫画种类,以及漫画在不同时间端点,用户访问总量等
技术实现:
1. 首先通过JS埋点和JavaSDK采集用户的行为数据,并保存到Nginx日志服务器中
2. 使用Flume监控日志目录,将多个数据源的汇总保存到HDFS中,使用sqoop同步
MYSQL中的业务数据到HDFS
3. ETL过程,把原始数据进行处理,导入原始数据层,确定主题,并拉取各自主题
下的数据
4. 使用SparkCore,完成日志数据的清洗,将用户的信息进行提取,针对不同事
件进行分类,并将数据保存到HDFS中,方便后续使用。
5. 编写hql语句进行分析,运用Azkaban作为调度工具。
6. 将处理结果使用Sqoop导出到MySql中,用于前端的展示
7. 将用户画像数据保存到HBase中,方便查询和修改
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论