运维数据中台

我要开发同款
李日祥2023年09月06日
441阅读
所属分类golang、数据中台

作品详情

小米公司当前存在数十个运维相关的系统,这些系统生产的数据缺乏统一的管理,没有一个全局数据中心,对数据进行资产化,用户经常面临“找数难”、“取数难”、“用数难”的问题, 因此运维数据中台孕育而出, 做到对数据资产统一管理,做到数据资产的安全、可见、可靠、可用和可运营,这也是对AIops的一个探索,作为AIops的数据底座,为AIops模型训练提供运维数据来源,实现AIops的异常检测、根因分析、故障自愈等
技术栈: java1.8, go1.17, 维度建模, mysql5.7, redis, grafana, 分布式系统, python3.8, Django1.12.11,飞书小程序,flink1.12, spark, talos(小米自研消息队列), doris, iceberg, presto, whale(小米自研BI报表平台), k8s, docker, fds(小米自研对象存储), loki,elk,elasticsearch
工作职责:
1.负责对各部门的需求跟踪, 沟通和对接, 确保新需求顺利接入
2.负责项目核心服务的开发, 提供技术解决方案, 跟踪用户场景, 评估数据价值
3.运维数仓建设:负责在数据联接层构建关联关系, 对各主题下的数据维度打通,形成图模型, 多维模型, 标签模型, 指标模型, 算法模型等各种数据模型, 并用One-Service提供提稳定, 可靠的对外api
数据域建设:
(1)服务域建设: 打通从data-switch->talos topic1->flink->talos topic2 -> flink sql的数据清洗链路,实现garm系统的清洗,设计基础变更系统表结构,为基础变更大屏的基础设施变更层的变更数据做支撑,实现实时数仓
(2)成本域建设: 用spark把资源与成本中心的成本数仓合并到运维数仓, 实现离线数仓
(3)容器域建设: 对接容器平台, 将容器数据同步到数仓, 并用whale对容器资源制作报表展示进行olap分析
4.Data-Switch服务:运维数据中台自研ETL框架。负责项目的总体架构设计, 以及任务调度, 任务状态系统, 任务编排, 定时同步, 状态监控, 数据清洗, 任务面板等核心功能的开发, 使该框架拥有了秀的海量数据处理能力, Data-Switch是运维数据中台统一数仓层的分布式系统项目, 将源系统数据通过etl同步到ods层, dim层和dwd层,并对源数据做一些标准化处理,输出一篇专利《一种基于分布式技术的API动态流式ETL方法与装置》
5.One-Service服务:运维数据中台对外统一出口。1.负责SQL解析引擎的开发, 将DSL通过词法分析与语法分析解析成go结构体,并将结构体调度到elasticsearch和druid以及falcon,2.负责服务全链路建设,打通One-Service->midun->mife-alb->httpd
->grafana的全链路, 通过类SQL查询对接入层网络拓扑实时查询和分析,为grafana官方提交一个issue,修复graphX前端问题,目前已经合并到官方分支
6.日志系统:MIFE海量日志系统。 负责项目架构调研与设计, 每日全机房数据量600TB/day, 时延Latentcy 40s, QPS 1000w/s,前期架构使用es+druid on grafana + fds方式进行工作, 后期等loki支持etl之后改成 loki on grafana + fds, topic日志分流功能开发
7.SRERobot: 运维数据中台智能机器人。SRERobot是运维数据中台对外的服务组件之一, 在小米办公中通过用户输入指令的方式来实时查询数仓的数据以及封装一些工作中一些日常操作,例如查询域名,主机,lvs,oncall,job,norns信息, 群组操作,域名续费操作,通知管理,主机权限授权,故障录入等
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论