●技术栈:Java8,SpringCloud,Feign,MybatisPlus,RabbitMQ,Mysql,MongoDB,Redis,MinIO,XxlJob。
●项目描述:数据中台是以采集数据,分析清洗数据为主要目的的一个数据管理平台,目前实现采集数据的方式有两种,数据库备份与爬虫爬取,采集后到数据源模块进行规则配置,然后按规则定时分析清洗。
●个人职责:我主要负责爬虫模块和数据源的管理功能开发,使用调度中心XxlJob来控制定时任务发送,爬取的原始数据存入MongDB,使用SpringBoot整合的MongoDB连接工具查询出数据后使用XPath和正则表达式匹配出有用的数据后存储到Mysql表中,数据表使用Spring封装的JdbcTemplate创建跟查询操作,提取图片识别使用ocr算法,完成有提取出表格图片数据。校验是人工校验,即人为对比提取跟源数据。现主要负责元数据管理与数据集成模块的业务代码,完成了数据源的配置与测试连接,数据库获取数据的展示页面接口,还有SQL工作台的SQL语句执行的接口。