## 互联网广告(开始时间不详,止于2020.11)
### 概述
运用大数据技术细分用户喜恶,再根据用户喜恶权重投放广告,从而大幅提升了广告的转化率。
### 实现
数据采集:
- 使用Flume从各日志服务器采集埋点日志到Kafka。
- 使用Sqoop从MySQL导入数据到HDFS。
数据处理:
- 实时
- 使用SparkStreaming实时处理来自Kafka的数据并保存结果到Redis。
- 离线(先用Flume从Kafka采集数据到ODS层,此步骤起到一个备份的作用。再用Spark清洗数据到DWD层,用于离线处理的统一入口)
- 使用Hive分层搭建数仓并保存结果到MySQL。
- 使用Spark对用户打标签并保存结果到HBase。
- 使用推荐算法分析数据并保存结果到MySQL。
数据展示:使用ECharts展示数据。
### 个人职责
搭建Flume集群。
参与Spark离线编码(含ETL)。
使用Hive离线编码。
打标签以生成用户定向。
对接后端人员。
协助测试人员。