点击空白处退出提示
数据中台
我要开发同款作品详情
●项目描述:数据中台是以采集数据,分析清洗数据为主要目的的一个数据管理平台,目前实现采集数据的方式有两种,数据库备份与爬虫爬取,采集后到数据源模块进行规则配置,然后按规则定时分析清洗。
●个人职责:我主要负责爬虫模块和数据源的管理功能开发,使用调度中心XxlJob来控制定时任务发送,爬取的原始数据存入MongDB,使用SpringBoot整合的MongoDB连接工具查询出数据后使用XPath和正则表达式匹配出有用的数据后存储到Mysql表中,数据表使用Spring封装的JdbcTemplate创建跟查询操作,提取图片识别使用ocr算法,完成有提取出表格图片数据。校验是人工校验,即人为对比提取跟源数据。现主要负责元数据管理与数据集成模块的业务代码,完成了数据源的配置与测试连接,数据库获取数据的展示页面接口,还有SQL工作台的SQL语句执行的接口。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论