大数据开发

我要开发同款
proginn12440183902023年11月21日
104阅读
开发技术hdfs、elasticsearch、nosql、hadoop、shell

作品详情

离线数仓:在服贸会的官方网站上获取数据信息,存入第三方数据库中,从mysql库中获取信息,利用公司的城操调度,T+1的形式存入hive库中。由大数据工程师通过 hive 的分层建模,需要得到各省市区,境外的参展商,专业观众,新增企业数、疫情下的人流量、票务证件的使用情况、各地区的订单金额等有效信息,通过城操调度将数据结果存放在 MySql 中。然后将数据并进行分析以及调用数据进行数据BI报表展示。

实时数据:通过接口,接入入场人的信息,通过闸机获取公安的个人核算报告,然后通过FlinkSql进行计算。
接入大屏进行展示。

业务需求:
省市区:行业分析、组展机构、展品展馆
年 度:企业新增、用户分析、新增参展商
月 度:公司概况、主播分析、内容分析、地域分布处理日度、月度金额占比、订单增长率
周 度:直播数据,直播观看人数,直播间pv,uv统计,洽谈间人次,各网站浏览pv,uv
直播分析:论坛活动,会议直播
会展数据:当日进场人数,当日票务总计,当日制证总计,闸机人数统计,展馆人数统计
各pv,uv来源:官网,APP,小程序,H5
展台/展品/项目:发布展台展品数据,收藏项目数
行业/展品/组展机构占比:top10、top50、top100
其他:总签约额,意向订单,签约订单,零售成交额,商品交易排行榜,国际意向订单,国内意向订单,
观看直播人数,直播数,参加直播企业数…

项目职责:
搭建数仓从0-1,同步数据到大屏,到BI报表
1、 负责清洗 Mysql同步过来的原始数据,将数据在 fdm 层进行过滤,将不符合逻辑的脏数据和无效数据过滤掉后放入到 gdm/adm 层。进行业务逻辑梳理、流程优化。
2、 把控需求:对 gdm 层的数据进行计算,统计出公司概况、主播分析、内容分析、地域分布处理日度、月度金额占比、订单增长率等等。各指标的统计及环比同比情况。
3、 数据汇总:将 gdm的数据进行区分,把平台主播的开播分类、直播时长、吸引观看量等信息进行汇总分析,并整理出 top10、top50、top100、top500、top1000 主播观看量及直播分类访问量。
4、 导入数据库:使用调度将数据导入到 MySql 数据库,
5、 数据调度:将编写好的 shell 脚本来进行任务的调度。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论