58知楼项目

我要开发同款
叙之2024年05月09日
51阅读
开发技术多线程、elasticsearch、kafka、java爬虫
所属分类大数据

作品详情

58知楼是58安居客旗下的商业不动产咨询与产业促进服务平台,包含产业数据、楼宇数据、企业及交易大数据。
责任描述:参与改进数据仓库的数据分层设计。负责数据采集及加工。
1. 数据查询优化:针对海量数据更新查询慢的问题,进行分库分表优化。
分库:针对请求量太多造成连接数不够的问题,进行分库操作。根据业务领域进行分库的垂直拆分,拆分成产业数
据库、楼宇数据库、企业数据库等,每个库中存储其相关业务的表。
分表:针对于数据量比较大的表查询缓慢问题,进行分表。如企业表有两亿条记录,首先进行垂直分表,其次根据
城市ID作为分表字段进行水平分表,每个表中记录数不超过500万。
使用Sharding-JDBC工具进行分库分表操作。
通过canal监听binlog将表数据同步至es中,满足多样查询。
分库分表后数据查询平均耗时由600ms减少到30ms。
2. 问题数据修复:
基于mysql gis功能,构建全国城市区域电子栅栏数据,对地址和经纬度不一致的数据进行修复。
3. 数据生产优化:
借助大数据平台,同步MySQL数据至hive,通过spark脚本、sparkSql进行指标计算,提高数据生产效率。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论