大数据分析平台整体以分布式存储为设计和分析的思想进行架构设计,为公司的业务系统提供大数据解决方案,提高业务系统的实时查询性能和网络吞吐量。主要以CDH6.1.0为hadoop大数据平台的技术底座,对hadoop组件体系的集群化管理,统一控制台运维管理hadoop组件的稳定性、伸缩性、容错性、高可用性等等,可以良好的兼容Spark Streaming2.4.0、flink1.6.0、storm1.2.0等流式计算框架,集成了hive sql、spark sql、java jar、spark、shell、python离线计算资源,集成了impala3.1.0查询引擎,以及与kudu1.8.0 等存储引擎的良好集成,引入了dolphinScheduler1.0.0工作流分布式调度系统,支持spark, hive, mr, python, sub_process, shell等等任务调度。上层应用以springCloud Edgware.RELEASE微服务架构为基础、结合mysql5.7 、redisGraph1.0.8图数据库、es6.4.0、rocketmq4.2.0 等中间件和数据库搭