点击空白处退出提示
作品详情
责任描述:参与改进数据仓库的数据分层设计。负责数据采集及加工。
1. 数据查询优化:针对海量数据更新查询慢的问题,进行分库分表优化。
分库:针对请求量太多造成连接数不够的问题,进行分库操作。根据业务领域进行分库的垂直拆分,拆分成产业数
据库、楼宇数据库、企业数据库等,每个库中存储其相关业务的表。
分表:针对于数据量比较大的表查询缓慢问题,进行分表。如企业表有两亿条记录,首先进行垂直分表,其次根据
城市ID作为分表字段进行水平分表,每个表中记录数不超过500万。
使用Sharding-JDBC工具进行分库分表操作。
通过canal监听binlog将表数据同步至es中,满足多样查询。
分库分表后数据查询平均耗时由600ms减少到30ms。
2. 问题数据修复:
基于mysql gis功能,构建全国城市区域电子栅栏数据,对地址和经纬度不一致的数据进行修复。
3. 数据生产优化:
借助大数据平台,同步MySQL数据至hive,通过spark脚本、sparkSql进行指标计算,提高数据生产效率。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论