
资源池治理
通过多种异构算力资源的统一调度和治理、、RDMA网络监控、、GPU资源监控及多租户队列的资源分配调度与工作调度,,,实现算力网络全栈智能治理

在线/远程开发
提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式,,,支持VPC内网或公网方式进行SSH远程衔接开发环境

自界说镜像构建
使用平台预置或自界说镜像进行模型开发与镜像构建,,,支持开发机环境备份与复原

RDMA网络拓扑感知调度
基于GPU和RDMA网络拓扑信息优化工作调度,,,将统一散布式训练工作的多个pod调度到拓扑距离最近的节点和网卡上,,,降低跨节点通讯延长

GPU故障感知与自愈
开启自愈组件和工作维度自愈配置后,,,在检测到GPU资源异常时进行工作重调度,,,有效削减因GPU故障带来的工作中断,,,提升GPU有效训练时长

散布式训练
支持大规模多机多卡散布式训练,,,兼容Megatron、、DeepSpeed、、PyTorch、、TensorFlow等主流训练框架,,,并提供工作可观测能力,,,结合监控面板、、日志服务及Tensorboard实现训练工作分析

模型在线服务
支持使用内置大模型或自界说镜像部署模型在线服务,,,提供在线调试职能,,,并支持通过WebUI模式直接挪用在线服务接口

资产治理
集成存储配置、、模型治理和镜像治理三大?,,,支持对接高机能文件存储/对象存储并实现统一权限节制,,,提供团队模型共享及在线服务关联职能,,,同时支持KCR镜像仓库对接与自界说镜像可见性治理