需求描述:非结构化文档(例如:pdf,word,excel,ppt,txt文档)预览功能和非结构化数据(例如:mysql,postgressql,oracle,sqlserver等数据库)迁移到hbase数据库进行分页查询。
项目描述:大量的文档需要在系统中存储,对下载有权限控制,开发了一个在线文档预览,对非结构数据进行迁移到我们大数据平台进行备份和查询功能和对hbase数据进行迁移
责任描述:使用spark对mysql,sqlsever,oracle,postgressql数据库中超过50万条数据进行迁移到hbase数据库,并且通过Redis建立缓存对大表进行分页查询下载,通过datax对hbase数据库进行迁移,通过ElasticSearch对非结构化文档进行存储并快速通过搜索非结构化文档的文档和对非结构数据进行快速全文检索,和通过开发后台接口和前端进行接口对接
项目技术:用springboot+mybatisplus+dubbo+spark+hadoop +hbase+ElasticSearch+redis+docker+mysql+接口
实施结果: 已经上线