扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

告别算力焦虑,左手模型、右手芯片的双剑合璧。

2小时前
120
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

在AI时代,如何实现商业闭环?

大模型的能力决定了你有没有“入场券”。

而Token成本决定了你能不能“笑到最后”。

如果你的模型不能打,Token再便宜也没人用。

即使模型能力够,你的token成本下不来,就没有办法赋能千行百业。

所以:AGI的竞争,

上半场是模型能力比拼。

下半场就是Token成本的肉搏。

首先看模型能力,国内就是千问和deepseek。

阿里通义实验室最近扔出的Qwen3-Max-Thinking,性能直接硬刚GPT-5.2和Gemini 3 Pro 。

该模型通过大幅增加训练参数(万亿级别)并引入强化学习技术,在逻辑推理、复杂问题拆解和人类偏好对齐上实现了质的飞跃,性能足以媲美GPT-5.2和Gemini 3 Pro。

尤其是AIME25数学竞赛拿了100%满分,这说明它已经从“复读机”进化到了“思考者” 。

这是阿里的“入场券”。

有了这个顶级的推理能力,MaaS(模型即服务)才有那个“服务”的价值。

否则,你卖的就是一文不值的乱码 。

但是还有一个问题:

现在的现状是,

如果你纯靠买昂贵的通用GPU来跑推理,Token价格很大一部分是买金铲子(买GPU)的税。

除非你自己能有自己的芯片,并且和自身的大模型、云计算平台紧密耦合,从工程入手,更好发挥芯片的算力潜力,以及集群的算力效率,进而有效提升模型训练以及推理的效率,让成本有进一步下调的空间。

如何回答这个问题?

这就有了平头哥PPU的出现。

也就是“真武810E”也就是之前传得沸沸扬扬的PPU。

这款芯片采用平头哥自研的并行计算架构和片间互联技术,完全适配当前大模型对高显存带宽与低延迟互联的需求。

此外,真武810E的技术规格显示了极强的针对性。

下图老哥根据公开信息,画的真武810E(PPU)的架构图:

在显存容量上,它通过配置96GB的HBM2e,直接对标了英伟达目前在中国市场销售的最强型号H20。

更为关键的是其700 GB/s的片间互联带宽,更接近了H20的水平,确保了其在万卡规模的集群训练中能够维持极高的线性加速比。

图中心最显眼的就是那个 Compute Array(计算阵列)。

每个 Tile 内部都不是单一的计算单元,而是集成了 Tensor Cores(张量核心)、Vector Cores(向量核心) 和 Scalar Cores(标量核心)。

6通道 HBM2e 接口,总带宽达到 3.2 TB/s。

虽然 PPU 用的是 HBM2e(比 H20 的 HBM3 稍微落后半代),但通过 6 通道的设计把带宽顶到了 3.2 TB/s,这在大模型推理(Memory-bound 场景)中能极大地缓解数据搬运带宽。

图左侧那 7 个绿色方块就是700GB/s 的片间互联,这个对标英伟达的NVLINK,每一个方块代表一个 100GX8 SerDes 链路。7 条链路加起来,刚好就是咱们之前说的 700 GB/s 总带宽 。

为什么是7个,老哥觉得这个设计就是为了单机 8 卡全互联量身定制的。

一颗芯片连剩下的 7 颗PPU(每两颗之间是800Gb的带宽),不需要经过中间交换机,这样延迟低到令人发指。

最后,芯片支持PCIe 5.0 x16 接口,双向带宽 128 GB/s。

这意味着 PPU 不仅能和 CPU 快速对话,未来还能实现内存池化共享。这在万亿参数模型需要超大显存池的场景下。这个片间互联能够支持更多片的显存的池化。

那么这款卡的计算能力如何?

我没有找到有文献介绍。

通过阿里云已经部署的万卡集群数据,我们可以反推其单卡性能:

根据公开报道,中国联通三江源大数据中心部署了 16,384 颗 PPU,总算力达到 1,945 PFLOPS

单PPU的算力在1,945 PFLOPS / 16,384 颗=118.7 TFLOPS/颗。

H20 的 FP16 稠密算力约为 148 TFLOPS

这意味着真武810E在原始算力上已经非常接近 H20,甚至在某些特定算子优化下可以平起平坐 。

众所周知,硬件性能只是基础。

软件生态(如CUDA)才是英伟达真正的统治力所在。

平头哥真武PPU采取了极为务实的生态策略:在维持全栈自研软件栈的同时,实现了与现有主流AI框架(如PyTorch, TensorFlow)以及CUDA开发习惯的高度兼容。

这意味着开发者可以将现有的模型代码以极低的成本迁移到真武平台上,无需重新学习复杂的新框架。

这种从底层芯片直接传导到上层Token价格的垂直整合,才是MaaS竞争里的“成本护城河”。

所以,阿里现在是在走一条“谷歌式”的硬核路子。

在全球大厂里,除了谷歌,阿里是唯一一个在芯片、云和大模型三个层面全栈自研的公司 。

这种垂直整合的能力,才是“通云哥”最值得关注的战略肌肉。

大家别被“通云哥”这个词迷惑,“通云哥”不是一个类似平头哥的新动物。

而是由通义实验室(Tongyi Lab)、阿里云(Alibaba Cloud)和平头哥组成的战略集群。

通过“模型+云+芯片”的全栈闭环,确立了阿里作为全球唯二(另一家为谷歌)具备顶级全栈自研能力的AI基础设施提供商地位。

“通云哥”代表了阿里巴巴在AI时代的生存哲学与竞争门槛。

在这个三角形结构中,

平头哥作为“战术底座”,负责定义底层算力的物理边界;

通义实验室的千问大模型作为“智慧灵魂”,负责拓展模型算法的认知极限;

阿里云则是“算力载体”与“服务触达点”,负责将顶尖技术转化为公共服务的“水电煤” 。

这种全栈布局的深层逻辑通过垂直整合能够带来极致的优化效率。

平头哥可以根据千问大模型的训推需求,在硬件上做进一步的优化,进而让训推效率得到进一步的提升;

阿里云则通过“最懂芯片的云”去调度算力资源,确保大规模万卡集群在进行模型训练和调用时达到最高效率。

当前全球云计算市场已进入“四强”格局,由亚马逊AWS、微软Azure、谷歌云(Google Cloud)和阿里云共同占据超过80%的市场份额。

然而,在战略路径上,这四大巨头已分化为两种模式。

亚马逊和微软主要通过巨额投资深度绑定外部模型公司(如微软联手OpenAI,亚马逊注资Anthropic),构建“云+生态”模式,利用先发优势将企业客户与AI能力连接。

相比之下,谷歌和阿里巴巴选择了更为艰难的“全栈自研”路径。

它们不仅是云服务商,更是顶尖模型开发者与核心芯片设计者。

这种全链路控制力使得它们在面对外部供应链限制与技术迭代冲击时,具备更强的韧性与定义权。

通过打造软硬一体的“AI超级计算机”,阿里巴巴正在重塑AI基础设施的定义,这不仅是企业的护城河,更是推动中国AI基础设施自主可控的关键力量。

基于通云哥的三位一体的体系,阿里云搞MaaS(模型即服务)就会有模型的效率优势和token的成本优势。

当一家公司能够同时掌控最底层的芯片逻辑、中层的超大规模云网络以及顶层的开源算法生态时,它就掌握了AI时代的“定义权”。

这就是所谓的“1+1+1>3”。

当“最懂模型的云”和“最懂芯片的模型”咬合在一起,结果就是:训练加速比提升3倍,推理吞吐量增加71% 。

这省下来的每一分钱,最后都变成了MaaS平台上Token的竞争力。

为什么这条路能够满足MaaS的需求以及AGI的未来。

通过全栈自研,才能把Token价格打到“水电煤”的水平,让千行百业的企业真正用得起 。

然后把这台机器的能力,通过MaaS变成廉价且强大的Token,源源不断地输送给开发者。

在MaaS市场靠Token成本优势,更是为了在从AGI(通用人工智能)向ASI(人工超智能)跨越的关键窗口期,拿到那张全球仅剩5-6个席位的“超级云平台”入场券 。

AI时代的竞争,上半场拼的是智商,下半场拼的是“生存效率”。

告别算力焦虑的答案其实很简单:

不要总想着买最贵的“金箍棒”,造出一套能让所有人无感切换、且便宜一半的“国产动力系统”,才是真正的终极活法。

相关推荐