【万字长文】华为竟然将自己的秘密武器，免费公开了？

把自己的秘密武器免费开放给所有人，这或许是华为今年做的最疯狂、也是最正确的决定。

事情是这样的。2025年3月，华为发布了昇腾384超节点，这是一个由384颗昇腾AI芯片组成的、但能像一台计算机一样工作的超级算力节点，最大算力甚至超过了英伟达。紧接着，2025年6月，任正非在采访里说了一句可能很多人一开始听不太懂的话：

芯片问题其实没必要担心，中国在芯片领域已经具备了足够的自主能力。

当时很多人的第一反应是，难道我们搞定了先进制程，能造高端芯片了吗？

但如果我们把这两件事连在一起，就能看到，其实华为已经把算力这件事，从「一颗芯片的能力」，升级成了「一整套系统工程的能力」。而让这件事成为现实的关键，其实不是昇腾芯片本身，也不在于背后堆了多少芯片，而是一个绝大多数人都没听过的名字：

灵衢。

我花了几个月的时间，搜集了所有我能找到的资料，甚至为了整理这些内容我还专门给它做了个网站（链接见文末阅读全文）。研究的越深入，我越觉得灵衢其实是华为手里藏得最深的一张牌，是他们的「秘密武器」。

但更离谱的是，华为选择将灵衢免费开源开放。用他们轮值董事长的话说，是全量开源，应开尽开。

所以灵衢到底是什么？这个技术为什么重要？做一个灵衢到底有多难？它和英伟达的NVLink、InfiniBand、以及其他的互联技术有什么本质区别？以及更重要的，华为什么要把它免费送给所有人？这对于华为、以至中国未来的科技发展到底有哪些意义？这篇文章我会详细回答所有这些问题。文章比较长，也比较硬核，但如果你能看完，肯定会对你很有帮助。

华为的“秘密武器”

要说清楚什么是灵衢，需要先知道什么是超节点，因为灵衢本身是为了构建超节点而生。但随着我们往下讲，你就会知道它的意义远远不仅仅是构建超节点那么简单。

在一个电脑主板里，有CPU、内存、显卡，他们通过主板上的特定电路和特定协议、比如很多人熟悉的PCIe总线连接在一起。在AI时代，特别是在大模型时代，我们需要训练GPT、Gemini、DeepSeek这种万亿参数的模型。单张显卡只能提供算力的九牛一毛。这时候就需要把几万台服务器里的CPU、内存和显卡连接在一起，组成一个超级计算机，这就是所谓的超节点。

但这样做又会有个巨大的问题，那就是1+1<2。

什么意思呢？过去几十年，我们默认算力增长来自摩尔定律：晶体管越来越小，频率越来越高，一颗芯片就能更强。但这个时代，已经结束了。现在的大模型训练，一上来就是几千卡、上万卡。这些芯片，从设计之初就根本不是为了“成千上万颗像一台机器一样协同工作”而生的。我们希望两块芯片连在一起，性能就是两倍。但在传统网络里，1加1往往等于1.5，甚至更低。于是问题就来了，你硬要把它们连在一起，就会撞上三堵墙。

第一堵墙：通信墙（Communication Wall）。想象一下，你有1000个数学家（这就是你的GPU），他们要共同解决一道题。如果他们每个人算完一步，都要寄一封信给其他人交换数据，而邮局（网络交换机）又堵车了……那么，这些数学家大部分时间都在坐着干等信件来。这就是大模型训练时的现状：通信时延太高，带宽不够。

第二堵墙：内存墙（Memory Wall）。现在的GPU算力增长太快了，快到内存根本供不上数据。就像你有一张嘴能一秒钟吃掉一个汉堡，但服务员一分钟才给你端上来一个。你的胃（计算单元）是空的。

第三堵墙：IO墙（IO Wall），这是指数据从硬盘读取到内存的速度。还用前面寄信的例子，你有上万封信要扔到邮筒里，但邮筒的开口很小，只能一封一封投，速度和效率可想而知会有多低。在训练万亿参数模型时，我们也需要频繁地加载和卸载数据，这对于传统的计算机系统来说简直就是噩梦。

撞上这三堵墙的后果就是，卡是有的、电是烧的、钱是花的，但性能，死活线性涨不上去，1+1就是不等于2。所以你会发现一个很有意思的共识，几乎所有顶级 AI 和芯片公司，最近几年讲话的重心都变了。

黄仁勋：未来的AI超级集群不是一个机器，而是一个“工厂”。它的核心不是单个芯片，而是如何将成千上万的GPU像一个整体般无缝协作。这需要根本性的系统架构变革。

苏姿丰：AI的进步正在受限于系统层面的瓶颈，尤其是内存和互连。下一个前沿是系统架构的创新，让数据在计算单元间更自由地流动。

山姆·奥特曼：构建一个超大规模的单一AI系统，是我们这个时代最复杂的工程挑战之一。它要求从芯片、互连、软件到冷却的全栈深度协同设计；任何一层都不能是孤立的标准。

扎克伯格：AI训练的瓶颈已从单纯的计算转向了内存和通信。当我们迈向百万卡集群时，互连技术将决定我们能走多快、走多远。我们需要更像“一台计算机”，而不是“一堆计算机”的集群。

看到关键词了吗？“像一台计算机”，这就是超节点的终极定义：它不是一堆连了网线的电脑，它在逻辑上，就是一台拥有数万颗核心、PB级内存的巨型单机。而为了真正把这个超级单机做出来，只有大算力的芯片是不够的。真正的战场，已经从芯片算力，转移到了算力怎么连——互联技术，才是这些大佬们真正的言下之意，也是这些大厂正在构建的真正护城河。

但对于华为，做互联技术还有另外一层更加现实的背景。

由于众所周知的原因，华为用不到最先进的制程工艺。单芯片性能受限，怎么办？于是华为选择了一条非常工程的路。任正非总结的非常直白：用数学补物理，用非摩尔补摩尔，用集群计算补单芯片。我翻译一下，就是我单挑打不过你，我就组建一支配合完美、心意相通的团队来试试。而让这个队伍心意相通的神经系统，就是灵衢。

深度解密：灵衢到底是什么黑科技

这一章我们深入讲一下灵衢到底是什么、它的六大特性、以及它和传统技术的主要区别。一句话总结灵衢的重要意义，就是它统一了数据中心里的“度量衡”。灵衢的官方定义很简单：它是一个“面向超节点的互联协议”。但如果只听这句话，你肯定没感觉。我们换一个更好理解的说法。

在传统架构里，CPU、GPU、NPU等等各种PU说着不同的语言，为了一起工作，必须以CPU为中心，让他统筹全局。所有数据，GPU 要找 GPU，先找 CPU；GPU 要找内存，先找 CPU；GPU 要找网卡，还是先找 CPU。CPU 就像一个永远在转机大厅里的中转站：每一条数据，都要根据它的目的地重新排队、安检、打包。

灵衢干了一件非常激进的事情——把这个中转站，拆了。

在灵衢的世界里，GPU 可以直接找 GPU、GPU 可以直接找内存。相当于灵衢给CPU、NPU、DPU、存储、交换芯片等等这些硬件建立了一个平等对话机制，它们全都可以互相沟通，全是“平等节点”，没有谁天生是老大，更没有中转站。这也是为什么基于灵衢的超节点，被称为“去中心化的超节点”。

那灵衢是怎么做到这一点的呢？总结起来，他们做了六件事，这也构成了灵衢的六大核心特性，我尽量用最简单的语言给你讲清楚。

第一个，总线级互联。灵衢的目标，不是把服务器连成网络，而是把整个数据中心，连成一条总线。不要中转站，而是要所有数据都能上同一条高速路，然后以最快的速度从A到B，不走一点弯路。从技术的角度说，传统数据中心的跨节点通信走的是网络语义，各种数据都要被打包成TCP/IP数据包，经过网卡、交换机，数据多了还要拥塞和重传，速度很慢；而灵衢直接把内存语义拉到了跨芯片、跨机柜这个尺度，GPU A访问GPU B的内存，就像访问自己的内存一样，可以直接读取和写入，不需要打包发快递，这样就把延迟降到了极致。

第二个，协议归一。过去数据中心里的协议已经多到爆炸，CPU用PCIe，GPU用NVLink，硬盘用SAS，网卡用以太网。它们语言不通，需要各种翻译。数据每经过一个芯片或硬件，就要重新翻译一次。而灵衢就好比规定了一个数据中心的普通话，它把数据中心里几乎所有设备都统一到一个协议下，不管你是谁，只要连上灵衢，我们就说同一种语言，沟通起来再也没有障碍。

第三个，平等协同。传统的架构是以CPU为中心的。你想干啥都得向CPU打报告。CPU忙不过来，大家就都得等。但灵衢是去中心化的。如果NPU想要从SSD里读数据，它可以通过灵衢直接读，完全不需要CPU插手。这就叫平等，所有设备在总线上都是平等的公民。这极大地释放了性能。这带来的不是小优化，而是一整套一致性、仲裁、错误处理机制的重构。

第四个，全量池化。以前，你的显存不够了就是不够了，哪怕隔壁服务器的显存是空的，你也用不了。但在灵衢架构下，所有的内存、所有的算力，都是一个巨大的“资源池”。你的任务需要1TB内存？没问题，系统自动从隔壁闲置的节点“借”给你。物理上它们在不同的机柜，但在逻辑上，它们就在你的主板上。这就让算力、存力、网络等等资源彻底脱离单机归属。

第五个，大规模组网。灵衢关注的不仅是扩展，还有扩到万卡之后线性度还在不在。很多私有协议只能连几张卡，最多一个机柜。灵衢支持从单节点扩展到8192卡，甚至未来支持15488卡以上的超大规模，而且线性度超过90%。这意味着，你增加一倍的卡，性能真的能增加90%以上。

第六个，高可用性。如果一个故障发生的概率是千分之一，那在万卡系统里，每天都会发生几十次。灵衢支持微秒级的故障检测和自动切换。在数据还没意识到路断了之前，它已经换了一条路走了。MTBF（平均故障间隔时间）大于6000小时。

看到这里你可能会问，灵衢的这六大特性，和其他主流的数据中心互联协议相比到底有什么区别呢？我选了NVlink、InfiniBand、CXL、UALink四种当前最火的协议，咱们一个一个和灵衢对比一下。

先说大家最熟的：NVLink。NVLink 很强，这点没争议。它的定位非常清晰，就是GPU-to-GPU的超高速互联。在同一节点、同一机柜里，它几乎是无敌的。

问题在于，它的世界观，从一开始就没打算覆盖整个数据中心。NVLink是英伟达的后花园，是GPU的私有高速公路，不是全系统的公共道路。CPU、存储、网络，并不在它的核心设计范围内。所以NVLink做出来的是：以英伟达GPU为中心的超节点。一旦走向跨机柜、跨系统，它就天然需要依赖额外的网络层来接力。此外，你也不可能买到NVLink本身，要用到NVLink的能力，就要买英伟达的一整套方案。事实上，英伟达的超节点目前也只做到72卡，144卡的已经跳票到2026年下半年。

而灵衢走的是完全相反的一条路：它不默认任何一个器件是中心。它不是在问怎么把 GPU 连得更快？而是在问：如果这是一台真正的计算机，CPU、GPU、内存、存储、网络，它们在系统里各自应该处在什么位置？

所以在灵衢的设计里，GPU 不是中心节点，CPU 也不是。也就是说，系统不是围着某一种芯片转，而是围着当前工作负载需要什么资源形态来动态组织。这也是为什么NVLink超节点，更像是一组绑在一起的GPU；而灵衢超节点，更像是一台被物理拆开的计算机。

再来看InfiniBand，这是今天 AI 集群的绝对主力。它基于以太网，所以优势很明显：成熟、稳定、生态完整。但它的底层语义，始终是“网络”。哪怕你用的是 RDMA，本质上依然是各种：消息、队列、网卡。这决定了它在超大规模系统里，很难自然演进出共享内存式的编程模型，延迟也很高。所以你会看到：通信可以很快，但系统依然是松散集群。而灵衢一开始追求的，就是把这种松散集群，压成一台逻辑上的计算机。

再看 CXL。CXL想解决的是跨芯片的内存共享。但问题在于，CXL 的出发点是基于PCIe的扩展，希望在老树上长出新花。它非常擅长解决服务器内的内存扩展问题，但一旦你把它拉到跨机柜、跨上千节点的尺度，一致性、拓扑、可靠性，都会变得极其复杂。

换句话说：CXL 是一条很好的局部补丁，而灵衢试图做的是系统级重构。

最后说 UALink。UALink是八个硅谷大厂为了对抗英伟达而联手发起的新联盟，之前文章里也分析过，有点八大派围攻光明顶的感觉。它代表的是另一条路线：用更聪明的以太网，去逼近 AI 互联需求。它的优势是兼容现有网络基础设施、部署成本低。

但它的天花板，也写在名字里：以太网。换句话说，它天生有着以太网的各种缺点，技术天花板也很有限。当你的目标是百纳秒级内存语义、TB 级带宽、万卡级线性扩展，你迟早会撞上物理和协议边界。

所以我们可以总结一下：NVLink解决的是 GPU 内部协同问题；InfiniBand解决的是集群通信问题；CXL解决的是内存扩展问题；UALink解决的是成本和部署问题。

而灵衢，试图一次性回答一个更大的问题：如果我们从零开始，为超节点设计互联，它应该长什么样？基于这个第一性问题，灵衢结合了总线的低延迟、网络的扩展性、以及内存互联的直接性。它是目前市面上唯一一个能同时覆盖柜内（Scale-Up）和柜间（Scale-Out），甚至跨集群（Scale-Cross）的统一协议。

做灵衢，到底有多难？

这一章我们说说做灵衢的三个最大的难点，以及这个技术为什么只有华为做出来了。

你可能会说，灵衢不过就是统一了协议嘛，这有什么难的？事实上，做这件事不仅难，而且不是靠砸钱就能搞定的。因为灵衢不是一个协议项目，更不是写几行代码，而是一场针对算力基础设施的系统性重构。

从技术上说，你至少要打破前面我们说的三堵墙。

首先，通信墙。传统网络里，数据包从A到B，要经历层层障碍，这中间每一步都要排队、安检、打包、拆包。在跨机柜、跨光互联场景下，你要同时满足高带宽、低时延和高可靠，这在物理上本身就是矛盾的。

灵衢的做法是“行李直挂”，它统一了封装格式，数据一旦上车（进入总线），中间经过交换机不需要解包，直接透传。再加上我们刚才说的内存语义、重新定义光模块、在协议各层引入可靠机制、在硬件中加入快速故障检测等等技术，才让通信带宽达到TB级，比传统数据中心网络快了至少10倍，同时保证稳定可靠。

第二，内存墙。现在的模型大到显存塞不下。以前的办法是模型并行，把模型切碎了放。但这带来了巨大的通信开销。灵衢的全量池化允许算力芯片直接访问远端内存。这意味着，对于程序来说，它以为自己拥有一个PB级的超大内存。虽然远端访问比本地慢一点点（微秒级），但比起从硬盘读，或者通过TCP/IP去拉取，那简直是光速。这直接解决了大模型训练中显存OOM（内存溢出）的问题。

最后，IO墙。当算力和内存都被拉平之后，IO会成为新的瓶颈。DPU、网络和存储必须一起池化、一起调度，否则瓶颈只是换了位置。在传统架构里，Checkpoint（模型训练存档）是最痛苦的时刻。成千上万个GPU同时要往硬盘里写数据，CPU瞬间被压垮，磁盘IO堵死。在灵衢架构里，SSU（可扩展存储单元）直接挂在总线上。GPU训练完数据，直接甩给SSU，CPU根本不用管。这让存档速度提升了数倍，训练效率大幅提升。

说来说去，其实证明了一句话：idea is cheap，show me the code。这种统一数据中心度量衡的事情，行业也讨论了很多年。为什么只有华为做出来了呢？

这其实有客观和主观两个原因。

客观上说，华为是世界上为数不多的同时做过芯片、服务器、网络、操作系统、云计算这五个层级技术的公司。为了重新定义数据中心的度量衡，而不是像之前的那些协议那样在前人的基础上缝缝补补，你需要懂芯片内部互联、I/O、内存一致性；也要懂服务器整机、供电、散热、机柜设计；还要懂数据中心网络、光模块、交换芯片；再往上，是操作系统内核、内存管理、调度；最后，是真实业务在云上的负载形态。

绝大多数公司，只覆盖其中一两层。而华为，是世界上极少数的把这五层都做过一遍的公司。

主观上说，只有华为，才有非做不可这件事情的内在动机。这点很关键。对很多公司来说，单芯片性能足够强，或者可以和行业充分合作，那就没有动力去做系统级重构这种看起来费力不讨好的事情。

但对华为来说，单芯片算力受限不是选项，而是现实。这反而逼着他们，必须在系统层面，把效率压到极致。

灵衢不是锦上添花，而是如果不这么做，就走不下去。灵衢从 2019 年开始研究，中间经历了多次架构推翻、协议重构。这不是一个三年 KPI 能交差的项目。你需要一家公司，既有长期投入能力，又能接受阶段性看不到回报，而且这件事的结果又关系到他的生死存亡。

说白了：这不是技术门槛，这是组织能力门槛。

所以我们现在再回头看，灵衢只有华为能做，它真正的含义不是别人做不出来；而是在今天这个时间点，同时具备能力、规模、动机和耐心的公司，恰好只有华为。

为什么要开源

知道灵衢有多重要了，那最让人疑惑的问题也来了：既然灵衢这么强、既然它是华为在重重封锁下杀出重围的「秘密武器」，为什么华为要把它免费开源出来？难道不应该学绿厂，谁想用它，就得买我的全套软硬件产品吗？这难道不才是正常的商业逻辑吗？

先说结论，华为开源灵衢，不是因为它不重要，恰恰相反，是因为它太重要了。重要到如果只让华为自己用，反而没办法发挥出灵衢最大的价值。具体来说有三个原因。

第一层原因，灵衢不是一个产品，而是规则和共识。产品的逻辑是：我卖给你，我赚差价。协议的逻辑是：我让所有人按同一套规矩来，整个生态的成本下降，规模上去，最后我在系统、在服务、在平台层吃到最大的蛋糕。历史上无数的技术进步都表明，最好的技术不一定能赢，用的人最多的技术才能赢。TCP/IP、USB、PCIe、Linux 为什么强？因为它们把“互相适配的成本”，从无穷大，降到了可接受。

同理，灵衢想当“算力时代的数据中心总线”，但总线最怕只有一台电脑支持。你再快，也只是私人跑道；只有被所有人接上，才会变成高速公路。如果灵衢只有华为自己用，那它就永远只是华为内部的一套黑盒魔法。虽然也能跑，但想让别人投钱、投人、投供应链，根本不可能。所以开源开放是必然选择。

第二层原因，华为需要的不是护城河，而是一片新大陆。华为虽然能做前面说的很多事情，但他也不可能一个人做完所有事。基于灵衢的Atlas 900超节点自2025年3月开始交付，至今已商用部署500多套，但超节点不是一家公司的独角戏，它需要的是一整条产业链一起配合：芯片、服务器相关的硬件、操作系统、上层软件等等，这是一个巨大的产业。

如果闭源，你会发现虽然能做一台超节点，但你做不出“超节点时代”。通过开源，华为邀请了其他的芯片厂商、服务器厂商、软件厂商加入。这就好比谷歌开源了Android，虽然失去了操作系统本身的售卖费用，但它换来了一个庞大到无法撼动的生态系统。所以开源的本质，不是放弃优势，而是把别人接入的心理成本和工程成本压到最低，让更多厂商敢投、敢做、敢适配，从而共同构建一个生态系统，共同繁荣成长。

第三层原因，也是更深层的原因，就是开源关乎中国技术的未来方向。在当前的环境下，我们必须看到，中国需要一套属于自己的、不受制于人的底层互联标准。如果底层互联协议全部是别人定义的，那你上层做得再花，也始终有个天花板。要么你永远跟着别人跑，要么你被迫做一堆“适配胶水”，把本该用在创新上的工程能力，消耗在兼容上，还随时面临着被卡的风险。

华为把灵衢拿出来，其实是在说：“嘿，兄弟们，路我修好了，地基我打好了，大家别重复造轮子了，一起来盖楼吧”。这意味着，国产的GPU厂商、国产的CPU厂商，国产的存储厂商，都可以直接利用灵衢的技术，融入这个“超节点”架构。这会极大地加速国产算力产业链的成熟。

灵衢开源，某种意义上是在说，这一次，我们不只想在应用层、产品层参与竞争，我们也要在规则层，给出一套自己的解法。

而且注意，灵衢不是华为一家的标准，也并不等于只服务国产。规则层一旦开放，理论上任何厂商都可以参与。到时候大家讨论的重点就会从“你是谁”，变成“你做得好不好”。这才是基础设施真正成熟的样子。

参与基础规则层的竞争，是中国技术路线必须迈出的关键一步。

好，说到这里你可能会问：那开源到底怎么开？不会一股脑全丢出来吧？对，灵衢的开源分三个级别。第一级是规范开源，先把协议规范、接口定义、行为语义公开。这一步的意义，就像先把字典发出来，这样大家才能学会用同一种语言交流。

第二级是参考设计与关键组件的开源。光有规范，大家可能还是不知道具体怎么实现，就像给你发动机的图纸你可能还是不会造，所以需要参考实现、工具链、以及必要的软件组件，让生态伙伴能够尽快验证、适配、把产品做出来。这一步的本质是：最大化消除从0到1的成本，让大家聚焦怎么从1到N。

第三极是工作组与生态治理。协议最怕的不是写得不够好，而是大家各做各的，最后全都不兼容。所以必须有工作组来推进版本演进、兼容性测试、认证机制、路线协同。这一步，才是决定它最终会变成一个真正的标准，还是一堆看起来很像但谁都不认的方言。

灵衢和未来

任正非说，美国夸大了华为的成绩，华为还没那么厉害，要努力做才能达到他们的评价。过去几十年，我们习惯了芯片会变得更快，一切都会变好。但是当摩尔定律不再自动兑现，当算力不能再靠单颗芯片堆出来，这个时代的计算机，应该长什么样？灵衢给出的回答是，算力真正的天花板，不是晶体管数量，而是系统协同的能力。它不是在证明我们有多厉害，而是在证明一件更难的事：

当单点突破走不通的时候，我们有没有能力，把一整套系统重新设计一遍。

更重要的是，华为没有选择把这条路围起来，只自己走。而是选择把规则摆出来，让整个产业一起走。

所以，灵衢意味着什么？

如果你是工程师，灵衢意味着，你终于可以在系统层、而不只是在单颗芯片上，施展你的工程想象力。如果你是产业链里的公司，灵衢意味着：你不再只是被动适配，而是有机会参与到底层规则的塑造。

如果你只是一个普通观众，那灵衢至少意味着：当时代抛给我们一个几乎不可能的工程问题时，中国开始不再只回答“能不能追上”，而是在努力回答，我们想把路，修成什么样。

而灵衢，或许就是这条路上的第一段地基。

（注：本文不代表老石任职单位的观点。）