GPU虽然计算性能好,但是在集群化的模式下依然有很多挑战,即便强如英伟达,也面临通信瓶颈、内存碎片化、资源利用率波动等问题。 最近,华为发布了一篇60页的重磅论文,提出了他们的下一代AI数据中心架构设计构想——Huawei CloudMatrix,以及该构想的第一代产物化的实现CloudMatrix384。相对于简单的“堆卡”,华为CloudMatrix给出的架构设计原则是,高带宽全对等互连和细粒度资源解耦。 够高效:预填充吞吐量达6688 token/s/NPU,解码阶段1943 token/s/NPU;计算效率方面,预填充达4.45 token/s/TFLOPS,解码阶段1.29 token/s/TFLOPS,均超过业绩在NVIDIA H100/H800上实现的性能;够准确:DeepSeek-R1模型在昇腾NPU上INT8量化的基准测试精度与官方API一致;够灵活:支持动态调整推理时延SLO,在15ms严格延迟约束下仍维持538 token/s解码吞吐量。 因为传统的AI集群,它内部运行的过程更像是“分散的小作坊”,每个服务器(节点)有种各玩各的感觉;算力、内存和网络资源等等,都是被固定分配的。 在这种传统模式下,AI集群一旦遇到超大规模的模型,就会出现各种问题,例如算力不够、内存带宽卡脖子、节点间通信慢如蜗牛等等。 并且数据在CloudMatrix384里,就像是搭乘了工厂里的高速传送带,因为所有芯片的连接都是由超高带宽、低延迟的统一总线(UB)网络完成,数据在芯片之间是“全对等”直接传输,这就避免了传统网络“堵车”的问题。 也正因如此,无论CloudMatrix384是遇到多大参数规模的大模型,亦或是需要频繁访问缓存的推理任务,都能通过动态分配资源,高效完成计算。 因为传统的AI集群中,CPU相当于扮演一个“领导”的角色,NPU等其它硬件更像是“下属”,数据传输的过程中就需要CPU“审批签字”,效率自然就会大打折扣。 而在传统集群中,节点间是通过RoCE网络来通信,带宽通常仅为200Gbps(约25GB/s),并且还存在 “南北向带宽瓶颈”(如数据中心核心交换机负载过高)。 为此,全对等互联引入了AIV直连(AIV-Direct)的机制,它可以直接通过UB网络写入远程NPU内存,跳过SDMA的中转,传输启动延迟从10微秒降至1微秒以内。 解码阶段的NPU可直接读取预填充阶段NPU生成的KV缓存,不用再通过CPU中转或磁盘存储,数据访问延迟从毫秒级降至微秒级,缓存命中率提升至56%以上。 简单来说,这是一套面向云的基础设施软件栈,它就像一个“智能管家团队”,可以把复杂的硬件设备变成人人能用的 “云端算力超市”。 值得一提的是,早在CloudMatrix384问世之前,华为云团队早早地就敲定下一代AI数据中心要以“面向云”为基础,这就体现了华为在技术战略布局上的前瞻性。 整体来看,这套面向云的基础设施软件栈主要包含以下几大模块:MatrixResource、MatrixLink、MatrixCompute、MatrixContainer,以及顶层的ModelArts平台,它们之间可以说是分工明确且相互协作。 它在软件栈中起到的是“资源分配管家”的作用,主要负责超级节点内物理资源的供应,包括基于拓扑感知的计算实例分配。 通过运行在每个计算节点擎天卡上的MatrixResource代理,动态管理NPU、CPU等硬件资源的分配,确保资源按拓扑结构高效调度,避免跨节点通信瓶颈。 它为UB和RDMA网络提供服务化功能,支持QoS保障、动态路由及网络感知的工作负载放置。可以优化超节点内384个NPU及跨节点间的通信效率,例如在推理场景中通过并行传输和多路径负载均衡技术,辅助提升推理效率20%。 具体实现的方式是跨物理节点编排资源,将分散的硬件组件构建为紧密耦合的逻辑超级节点实例,实现资源的弹性扩展和高可用性。 它的作用是让用户的AI应用能像 “快递包裹” 一样轻松部署到超节点上:基于Kubernetes容器技术,把复杂的AI程序打包成标准化容器,用户只需“点击部署”,它就会自动安排到合适的硬件上运行。 它位于整个软件栈的顶层,提供从模型开发、训练到部署的全流程服务,包括ModelArts Lite(裸金属/容器化硬件访问)、ModelArts Standard(完整MLOps流水线)、ModelArts Studio(模型即服务,MaaS)。 新手可以用ModelArts Lite直接调用硬件算力;进阶用户可以用ModelArts Standard管理训练、优化、部署全流程;公司用户则可以用ModelArts Studio把模型变成API服务(如聊天机器人),一键发布。 例如刚才我们提到的“用户无需关注底层硬件细节,只需调用API”这方面,具体而言,是华为云EMS(弹性内存服务)通过内存池化技术,将CPU连接的DRAM聚合为共享内存池,NPU可直接访问远程内存,实现KV缓存复用,使首Token时延降低 80%,同时减少NPU购买量约50%。 以及MatrixCompute支持超节点实例的自动扩缩容,例如根据工作负载动态调整预填充/解码集群的NPU数量,在严苛的15ms TPOT约束下仍能维持538 token/秒的解码吞吐量。 通过确定性运维服务和昇腾云脑技术,还可以实现万卡集群故障10分钟内恢复,HBM和网络链路故障场景下恢复时间挑战30秒,例如光模块故障影响降低96%,保障训练/推理任务的连续性。 软件栈还支持超节点资源的多租户切分,不同用户可共享硬件资源但逻辑隔离,例如通过命名空间隔离不同模型的缓存数据,确保数据安全与资源公平分配。 通过智能化调度实现“朝推夜训”,白天运行推理任务,夜间利用闲置算力进行模型训练,节点在训练/推理间切换<5分钟,提升算力利用率。 据了解,CloudMatrix384已经在华为云乌兰察布、和林格尔、贵安、芜湖四大节点上线,用户可按需开通算力,无需自行搭建硬件环境,10毫秒时延圈覆盖全国19个城市群,支持低延迟访问。 并且CloudMatrix384还提供全栈智能运维的能力,例如昇腾云脑的故障知识库已经覆盖了95%的常见场景,一键诊断的准确率达到了80%、网络故障诊断<10分钟,可以说是把运维的门槛也打了下去。 更关键的是,云端支持弹性扩缩容,公司可以根据业务需求动态调整资源规模,从几十张卡扩展到数百张卡,而无需对物理设施进行改动。 CloudMatrix384的运维自动化设计更是将故障影响降低96%,万卡集群故障恢复时间控制在5分钟以内,这种专业化运维能力是大部分公司无法自建的。


