234钱包

KingsoftCloud Starflow Platform

星流平台

为机械学习场景开发者和运维人员提供云原生AI算力和全流程治理能力
查看文档 训推平台 模型API服务
主题优势
产品个性
利用场景
产品迭代

主题优势

234钱包 - 安全支付工具|智能数字钱包平台

一站式全流程治理能力

提供从模型开发、、训练到推理的齐全性命周期治理,,,买通基础资源调度、、算力优化、、工作编排、、权限管控全链路,,,降低多?樾丛佣,,,实现“开箱即用”的AI开发履历
234钱包 - 安全支付工具|智能数字钱包平台

异构资源高效调度

通过动态工作编排算法与算力治理工具,,,智能匹配异构算力资源与工作需要,,,保险GPU资源利用率,,,显著降低算力闲置成本
234钱包 - 安全支付工具|智能数字钱包平台

高机能存储与网络加快

集成散布式存储系统与高速RDMA网络架构,,,实现训练数据高速提取、、模型参数高吞吐传输,,,支持大规模散布式训练工作并行效能提升
234钱包 - 安全支付工具|智能数字钱包平台

工作全性命周期可观测

工作级可观测能力覆盖开发、、训练、、推理全流程,,,结合监控、、日志、、事务信息及硬件维度监控指标,,,急剧定位异常点,,,缩短排障功夫
234钱包 - 安全支付工具|智能数字钱包平台

智能运维保险不变性

GPU故障自愈技术结合工作可观测性设计,,,实时监控硬件健康状态与工作过程,,,自动触发故障迁徙与工作重调度,,,降低算力中断风险,,,保险长周期训练工作不变运行
234钱包 - 安全支付工具|智能数字钱包平台

企业级安全管控系统

深度整合伙产权限治理与接见节制系统,,,提供细粒度角色权限节制、、工作隔离及资产隔离职能,,,满足多用户权限节制场景的合规性要求

产品个性

icon-func

资源池治理

通过多种异构算力资源的统一调度和治理、、RDMA网络监控、、GPU资源监控及多租户队列的资源分配调度与工作调度,,,实现算力网络全栈智能治理
icon-func

在线/远程开发

提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式,,,支持VPC内网或公网方式进行SSH远程衔接开发环境
icon-func

自界说镜像构建

使用平台预置或自界说镜像进行模型开发与镜像构建,,,支持开发机环境备份与复原
icon-func

RDMA网络拓扑感知调度

基于GPU和RDMA网络拓扑信息优化工作调度,,,将统一散布式训练工作的多个pod调度到拓扑距离最近的节点和网卡上,,,降低跨节点通讯延长
icon-func

GPU故障感知与自愈

开启自愈组件和工作维度自愈配置后,,,在检测到GPU资源异常时进行工作重调度,,,有效削减因GPU故障带来的工作中断,,,提升GPU有效训练时长
icon-func

散布式训练

支持大规模多机多卡散布式训练,,,兼容Megatron、、DeepSpeed、、PyTorch、、TensorFlow等主流训练框架,,,并提供工作可观测能力,,,结合监控面板、、日志服务及Tensorboard实现训练工作分析
icon-func

模型在线服务

支持使用内置大模型或自界说镜像部署模型在线服务,,,提供在线调试职能,,,并支持通过WebUI模式直接挪用在线服务接口
icon-func

资产治理

集成存储配置、、模型治理和镜像治理三大?,,,支持对接高机能文件存储/对象存储并实现统一权限节制,,,提供团队模型共享及在线服务关联职能,,,同时支持KCR镜像仓库对接与自界说镜像可见性治理

利用场景

模型开发与训练

高并发模型在线服务

4dad9b6eef50d0e67d7a5ac8be9c9605

业务痛点及需要

海量数据读取慢、、跨节点通讯延长高、、异构算力调度难

优势1

集成KPFS高机能文件存储系统,,,显著提升海量训练数据的读取效能,,,支持高吞吐、、低延长的数据接见,,,削减散布式训练中数据加载的瓶颈问题

优势2

选取RDMA高速网络架构,,,结合网络拓扑感知调度技术,,,将统一散布式训练工作的多个推算单元调度至物理拓扑相邻节点,,,降低跨节点通讯延长,,,提升散布式训练效能

优势3

基于动态资源编排算法,,,智能分析工作算力需要,,,自动匹配异构资源池中的空闲资源,,,支持工作优先级调度与队列抢占机制,,,实现集群资源利用率最大化
8d619abd6040c44a8f13319d9562c2d1

业务痛点及需要

企业模型选择受限和自运维成本高、、单机算力不及和高并发要求延长、、服务单点故障和工作列队

优势1

提供开箱即用的预置大模型(如DeepSeek R1/V3、、GLM、、Qwen3、、小米MIMO、、KiMi等),,,支持用户基于自界说镜像急剧部署自界说模型,,,满足企业对多样化模型选择的业务需要

优势2

针对单机算力瓶颈问题,,,平台支持大模型跨机部署,,,结合多副本负载平衡技术,,,自动凭据并发要求弹性扩缩容实例,,,确保高并发场景下服务高速响应,,,同时通过多副本冗余部署设计解除单点故障风险

优势3

提供WebUI和API调试工具,,,支持在服务正式颁布前验证模型推理逻辑与机能,,,确保服务高不变与低延长
【网站地图】