点击空白处退出提示
数据分析之滴滴出行
我要开发同款作品详情
用户打车的订单数据非常庞大。所以我们需要选择一个大规模数据的分布式文件系统来存储这些日志文件,此处,我们基于Hadoop的HDFS文件系统来存储数据。
为了方便进行数据分析,我们要将这些日志文件的数据映射为一张一张的表,所以,我们基于Hive来构建数据仓库。所有的数据,都会在Hive下来几种进行管理。为了提高数据处理的性能。
我们将基于Spark引擎来进行数据开发,所有的应用程序都将运行在Spark集群上,这样可以保证数据被高性能地处理。
我们将使用Zeppelin来快速将数据进行SQL指令交互。
我们使用Sqoop导出分析后的数据到传统型数据库,便于后期应用
我们使用Superset来实现数据可视化展示
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论