234钱包

星流平台

为机械学习场景开发者和运维人员提供云原生AI算力和全流程治理能力

234钱包 - 安全支付工具|智能数字钱包平台

主题优势

234钱包 - 安全支付工具|智能数字钱包平台

一站式全流程治理能力

提供从模型开发、、训练到推理的齐全性命周期治理，，，买通基础资源调度、、算力优化、、工作编排、、权限管控全链路，，，降低多？？樾丛佣，，，实现“开箱即用”的AI开发履历

234钱包 - 安全支付工具|智能数字钱包平台

异构资源高效调度

通过动态工作编排算法与算力治理工具，，，智能匹配异构算力资源与工作需要，，，保险GPU资源利用率，，，显著降低算力闲置成本

234钱包 - 安全支付工具|智能数字钱包平台

高机能存储与网络加快

集成散布式存储系统与高速RDMA网络架构，，，实现训练数据高速提取、、模型参数高吞吐传输，，，支持大规模散布式训练工作并行效能提升

234钱包 - 安全支付工具|智能数字钱包平台

工作全性命周期可观测

工作级可观测能力覆盖开发、、训练、、推理全流程，，，结合监控、、日志、、事务信息及硬件维度监控指标，，，急剧定位异常点，，，缩短排障功夫

234钱包 - 安全支付工具|智能数字钱包平台

智能运维保险不变性

GPU故障自愈技术结合工作可观测性设计，，，实时监控硬件健康状态与工作过程，，，自动触发故障迁徙与工作重调度，，，降低算力中断风险，，，保险长周期训练工作不变运行

234钱包 - 安全支付工具|智能数字钱包平台

企业级安全管控系统

深度整合伙产权限治理与接见节制系统，，，提供细粒度角色权限节制、、工作隔离及资产隔离职能，，，满足多用户权限节制场景的合规性要求

产品个性

资源池治理

通过多种异构算力资源的统一调度和治理、、RDMA网络监控、、GPU资源监控及多租户队列的资源分配调度与工作调度，，，实现算力网络全栈智能治理

在线/远程开发

提供云端集成开发环境并支持Jupyter Notebook与VSCode两种开发模式，，，支持VPC内网或公网方式进行SSH远程衔接开发环境

自界说镜像构建

使用平台预置或自界说镜像进行模型开发与镜像构建，，，支持开发机环境备份与复原

RDMA网络拓扑感知调度

基于GPU和RDMA网络拓扑信息优化工作调度，，，将统一散布式训练工作的多个pod调度到拓扑距离最近的节点和网卡上，，，降低跨节点通讯延长

GPU故障感知与自愈

开启自愈组件和工作维度自愈配置后，，，在检测到GPU资源异常时进行工作重调度，，，有效削减因GPU故障带来的工作中断，，，提升GPU有效训练时长

散布式训练

支持大规模多机多卡散布式训练，，，兼容Megatron、、DeepSpeed、、PyTorch、、TensorFlow等主流训练框架，，，并提供工作可观测能力，，，结合监控面板、、日志服务及Tensorboard实现训练工作分析

模型在线服务

支持使用内置大模型或自界说镜像部署模型在线服务，，，提供在线调试职能，，，并支持通过WebUI模式直接挪用在线服务接口

资产治理

集成存储配置、、模型治理和镜像治理三大？？，，，支持对接高机能文件存储/对象存储并实现统一权限节制，，，提供团队模型共享及在线服务关联职能，，，同时支持KCR镜像仓库对接与自界说镜像可见性治理

利用场景

模型开发与训练 

4dad9b6eef50d0e67d7a5ac8be9c9605

业务痛点及需要

海量数据读取慢、、跨节点通讯延长高、、异构算力调度难

优势1

集成KPFS高机能文件存储系统，，，显著提升海量训练数据的读取效能，，，支持高吞吐、、低延长的数据接见，，，削减散布式训练中数据加载的瓶颈问题

优势2

选取RDMA高速网络架构，，，结合网络拓扑感知调度技术，，，将统一散布式训练工作的多个推算单元调度至物理拓扑相邻节点，，，降低跨节点通讯延长，，，提升散布式训练效能

优势3

基于动态资源编排算法，，，智能分析工作算力需要，，，自动匹配异构资源池中的空闲资源，，，支持工作优先级调度与队列抢占机制，，，实现集群资源利用率最大化

建议搭配产品

文件存储KPFS

容器镜像服务

高并发模型在线服务 

8d619abd6040c44a8f13319d9562c2d1

业务痛点及需要

企业模型选择受限和自运维成本高、、单机算力不及和高并发要求延长、、服务单点故障和工作列队

优势1

提供开箱即用的预置大模型（如DeepSeek R1/V3、、GLM、、Qwen3、、小米MIMO、、KiMi等)，，，支持用户基于自界说镜像急剧部署自界说模型，，，满足企业对多样化模型选择的业务需要

优势2

针对单机算力瓶颈问题，，，平台支持大模型跨机部署，，，结合多副本负载平衡技术，，，自动凭据并发要求弹性扩缩容实例，，，确保高并发场景下服务高速响应，，，同时通过多副本冗余部署设计解除单点故障风险

优势3

提供WebUI和API调试工具，，，支持在服务正式颁布前验证模型推理逻辑与机能，，，确保服务高不变与低延长

建议搭配产品

容器镜像服务

虚构私有网络

产品迭代





1

星流平台上线



2025-02-24

新产品

2

支持开发工作、、训练工作和内置大模型部署



2025-02-24

新职能

3

支持自界说部署模型在线服务



2025-03-27

新职能

4

支持尺度型、、容量型KPFS存储，，，支持容量和配额设置



2025-04-01

新职能

5

支持模型治理



2025-04-23

新职能

6

训练工作故障自愈战术齐全颁布



2025-04-30

布告

7

模型在线服务新增Qwen3、、MIMO系列



2025-05-09

新职能

8

仿真服务职能正式上线，，，支持通过平台急剧创建云主机，，，开箱即用NVIDIA Isaac Sim仿真环境



2025-05-23

新职能

9

数据集职能正式上线，，，为用户提供开源数据资源的集中治理与检索服务



2025-05-29

新职能

10

新增Pod维度GPU资源监控职能，，，支持查看工作Pod的GPU资源监控数据



2025-06-11

新职能

【网站地图】