1.基于 Kubeflow 研发 AI 作业全生命周期产品,包括 MLOps Pipeline 、数据特征工程、制品元数据管理、模型训练及推理功能。
2.基础设施层面 GPU 算力共享、RDMA 拓扑感知、Fluid 对象存储加速、Volcano 多场景调度、AI 作业训练推理性能优化。
3.基于Ray、DeepSpeed分布式训练及推理工程实践实现大模型业务场景私有知识库、智能对话的产品功能。
4.打通 IoT 边缘计算集群
云端 基于 Python Web框架 KubeEdge 开发管理边缘计算节点、应用及设备,边缘路由、AI 模型及数据等功能。
边缘端 基于 Python TensorFlow 开发 AI 应用代码编译发布升级、数据上报、模型训练升级等功能。