随着直播行业兴起发展,主播的加入,为了给主播以及用户带来更好体验,需要了解到主
播以及粉丝的详情情况,并对主播以及粉丝做分析统计,娱乐直播平台分析主要针对平台
以及粉丝的活跃情况,进行周榜、月榜、环比以及 ToN 的数据分析。
1、通过爬虫将数据爬取下来,放到本地磁盘,会用 Flume 进行数据的采集将采集的源数据存放到 HDFS 上。
2、根据需求进行 ODS 建表操作,ODS 是存储的源数据,为下一层数据清洗做准备。
3、在建表之后,进行DWD层数据清洗,主要去除无效的数据,在 DWD 层结束时,将会把数据存储到DWS层,DWS层
主要是为了存储DWD层的结果,以及对DWD层数据进行聚合。
4、会有一个DIM维度层,将数据量比较小,查询次数比较多,进行创建维度表,以减少查询对内存的消耗。
5、最后会使用 Sqoop 数据迁移工具,将处理好的数据放到 MySQL 数据库中,或者是 OSS 对象存储中,接着使用具有血
缘关系的调度器 EasySchedule 进行任务的调度,还会使用 Grafana 监控工具,进行数据监控。