项目概述
本项目旨在构建一个分布式深度学习训练系统,涵盖客户端、主服务器和从服务器,实现用户登录、数据上传、任务管理、模型训练、监控与可视化等功能。系统支持高并发、易扩展和高容错的训练任务处理,适用于大规模深度学习任务的分布式管理。
客户端功能(PyQt)
客户端基于PyQt开发,提供用户登录、数据上传和任务状态查看功能。用户通过账号密码登录,获取JWT令牌以验证身份。数据上传模块支持多线程上传标注数据压缩包,并提交包含用户信息和任务参数的训练请求。任务状态查看模块定期查询主服务器,以表格形式展示任务列表,支持按状态、提交时间排序和筛选功能。
主服务器功能(Django + Nginx + Kafka + NFS + Prometheus + Grafana)
主服务器采用Django框架,结合Nginx、Kafka、NFS、Prometheus和Grafana,实现用户管理、任务管理、数据存储、监控与可视化功能。
用户管理
使用Django内置用户认证系统,支持用户注册、登录和权限分配。管理员可通过Django Admin界面操作用户数据,实现灵活的用户角色管理。
任务管理
主服务器