为数据平台构建统一的采集服务,针对三大类数据 APP用户行为日志,业务数据,商品数据。其中行为日志通过客户端SDK走http上报至nginx,通过logs'tash发送到kafka,使用FlinkStreaming消费Kafka数据,对数据进行校验和清洗,落地到HDFS以parquet格式存储。对于业务数据(mysql),实时性要求高的数据,通过Canal实时同步BinLog发送到Kafka,供下游消费,非实时性的数据,通过Datax的离线同步到Kafka再到HDFS。对于商品数据,自己封装的SDK,服务端接入SDK,发到KAFKA.,之后通过Flink发送到hdfs,对于落地的HDFS数据,hive建立外部表,进入数仓ODS层。
对于采集系统的各个组件的监控,采用prometheus+grafana方案,触发相关告警到钉钉声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论