点击空白处退出提示
作品详情
Olap引擎开发:对模型构建抽象层、映射层和物理层,对外统一采用SPARK SQL提供服务。对SQL语句进行执行计划分析、优化,根据执行计划自动路由到底层的druid、clickhouse、es或者PG及代价最优的cube上。
对数据分析进行加速:对各种模型进行cube创建,并根据调用频率、执行性能、构建代价以及cube重复度等指标对cube进行优化。执行计划的优化,包括SQL join 的汇总limit下压优化,物化视图的优化、维表关联、dynamic filter功能并且下推到druid 、clickhouse中,提升查询性能
引入了hudi数据湖技术,解决大数据更新问题以及物流模型join问题
使用多阶段事务提交技术,解决财务模型中财务数据到parquet再到clickhouse长数据链中的数据一致性问题
对druid进行性能优化和改造,解决OOM、资源隔离、熔断、分段路由等问题
采用cost模型对SQL语句进行代价评估,根据代价来进行限流、降级以及资源隔离
采用bitmap技术对于上亿会员进行各种集合操作(新、老会员、留存率、复购率等),并在clickhouse中使用了各种优化技术,提升性能;在spark中使用bitmap进行计算,并根据存算分离原则对spark执行计划进行优化。
解决spark在高并发下的调度、OOM、参数调优和性能问题。将spark 3.2下的SQL解析改造功能引入到spark 2.4上,大幅提升了sql语句解析性能。对spark 3.x下的AQE进行改进,解决星型模型的多表join性能和数据倾斜问题
开发Spark clickhouse核心代码,解决高基数、精确去重等问题
改造ES-hadoop项目,将order by、查询条件等语句进行下推,大幅提升查询性能
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论