物信融合平台-数据碰撞服务开发

我要开发同款
pookly2022年12月03日
228阅读

作品详情

杭州市公安局现场需要多个大表去做联结查询,比如通过联结查询常住/暂住人口表、旅馆信息表、车辆卡口信息表推断出犯罪人员行动轨迹.
1. 设计统一的碰撞参数格式,支持两个或多个大表碰撞。 采用Json格式,使用二叉树数据结构来描述多表的碰撞关系.每个nodes带有碰撞字段,展示字段,字段别名.表名级URI等信息. 根节点表示碰撞中间结果. 叶子节点表示单个表.
2. 开发spring-boot碰撞服务,在碰撞接口中调用livy api,使用Apache Livy的rest api方式模拟spark submit请求
3. Spark程序接收到Json参数 ,通过递归解析二叉树的Json,读取nodes信息. 根据nodes带有的type进行碰撞计算,type>0表示该节点下有2个叶子节点,1表示并集2交集3差集.
4. 增加内源框架albatis-spark关于Elastic-Search Mongo Kudu Solr的IO支持,通过nodes中uri来判断碰撞底层的数据源,比如es与Kudu碰撞,底层就去执行SparkESInput.class与SparkKudu.class,数据传递到SparkJoinInput,最终通过SparkMongoOutput. 输出到mongo供组件组同事使用.
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论