在单芯片性能受限、制裁持续的情况下,华为昇腾是真能打,还是“自嗨”?它是如何与英伟达竞争的?国产算力究竟到了什么水平?还有什么差距? 昇腾此前非常低调,它是华为打造的一款AI芯片。它不是拿来打游戏的显卡,也不是电脑中的CPU,而是专门针对AI任务的加速芯片NPU,是一颗纯纯的“AI处理器”。 目前昇腾最主力的产物叫“昇腾910”。但以往的昇腾芯片,更多是作为“备胎”使用的——因为美国断供,英伟达、AMD最高端的芯片买不到,很多厂商只能硬着头皮用国产,而昇腾已经是国产芯片中的佼佼者。 过去几年,昇腾其实主要用在AI“推理”环节,也就是模型训练好之后,用它来支持大模型生成内容、聊天等应用环节。但模型训练?说实话——很少用国产芯片,原因也简单:单卡性能弱、生态不够用、系统稳定性差。 这些成绩,不是闭门吹牛,而是写进了实打实的论文里——一款模型,用了8192颗昇腾芯片,训练出1350亿参数的稠密大模型“盘古Ultra”;另一款,用了6000多颗芯片,训出了7180亿参数的 MoE(混合专家)大模型。 华为和硅基流动的最新论文,直接把昇腾的384 超节点拉出来,和英伟达的 H100、H800 正面对比:谁在实战部署 DeepSeek-R1 这类大模型时更快、更高效? 要理解这个问题,我们得先来认识昇腾的最强战力,“CloudMatrix 384 超节点”这个大家伙。这就是它的外观(画面:384的结构图),它其实就是一个巨大的芯片集合,这最核心的384张昇腾910芯片,外加192颗鲲鹏CPU,通通塞进16个机柜,然后用光缆、光模块联接起来,构成一个“超节点”。 什么叫“全对等”?就是说,不是以 CPU 为主,也不是 GPU 说了算,而是所有芯片地位平等,传数据,不需要中转、不需要翻译,大大提高了传输效率。 同时华为选择了用光缆连接芯片,光缆就是靠“光信号”来传输数据。如果说铜缆是“城内公交”,那光缆就是“城际高铁”:速度快、带宽大、延迟低,传得远。 所以,英伟达大量使用了铜缆,但是,华为可不怕麻烦,毕竟人家通信起家,光通信就是华为的绝活。于是,华为直接在芯片内建立起“超级高速路”,能联接更多的芯片,组成了384超节点。 当然,这还只是互联部分。背后还有数学算法的调度优化、软硬件的深度协同、工程上的高效散热等等,昇腾也是在一次次的创新中突围。 用任正非的话来说:“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。” 从国内的AI芯片看,可以大致分为三个派系。一是科技巨头,包括华为昇腾、百度昆仑芯、阿里含光等;二是纯芯片厂商,比如已经上市的寒武纪,比如GPU四小龙燧原科技、沐曦、壁仞科技、摩尔线程;三是面向细分领域,比如车载AI芯片的地平线、黑芝麻等创新公司。


