深入理解摩尔线程

摩尔线程，本质上是一家押注“国产通用 GPU（GPGPU）”路线的公司，目标是做中国自己的 Nvidia——不是“仿”，而是“补上空缺”。它的定位不是 AI 加速器厂商，也不是图形芯片厂商，而是兼顾图形渲染、通用计算、AI 训练/推理的一颗全功能 GPU。

这类芯片的难度是“同时造三颗芯片”，但战略价值和市场潜力也最大。

一、摩尔线程是做什么的？

做 GPU + 做 GPU 生态。更具体一点分两层：

1. 硬件层（GPU 芯片 + 板卡 + 整机）

它不是只卖芯片，而是配套出完整产品形态，包括：

GPGPU 芯片（自研 MUSA 架构核）

数据中心训练/推理加速卡

个人工作站/边缘用的 GPU 卡

面向行业的 GPU 服务器整机

从工程角度看，它试图解决国内的三个缺口：

缺通用 GPU 架构（能跑图形、能跑并行计算、也能跑 AI）

缺高性能并行计算平台（国产可控）

缺配套生态（驱动、中间件、工具链）

这个路线的难度比单纯做 AI 加速器大得多，因为 GPU 是一种“超级复杂的系统工程”，涉及：

图形流水线

通用并行计算单元

AI 张量核（矩阵乘单元）

显存体系、调度器、缓存一致性

多模态编解码、视频处理模块等

这也是为什么市面上真正做“通用 GPU”的厂商非常少。

2. 软件层（MUSA 生态）

GPU 的成败不取决于芯片，而取决于生态。摩尔线程知道这一点，所以从开始就同步做软件栈，包括：

MUSA 指令集（算是国产 GPU ISA 之一）

编译器链路（类 CUDA 的编译工具链）

底层驱动（graphics + compute）

并行计算框架（MUSA Compute）

深度学习框架适配（PyTorch、TensorFlow 插件）

图形接口（Vulkan、OpenGL 兼容适配）

行业 SDK（视频、数字孪生、仿真等）

你可以把它理解为：

它试图从硬件到 API 构建一套“国产 CUDA+显卡驱动”组合。

这个难度巨大，但它的重要性甚至大过硬件本身。

二、技术路线：摩尔线程走的是什么流派？

摩尔线程走的是全功能GPU路线，与三类厂商区分很明显：

厂商类型	核心能力	典型代表	与摩尔线程区别
AI 专用加速器	只干矩阵计算	寒武纪、Ascend	不做图形、不做通用 GPU
图形芯片	做渲染，不做 AI 训练	景嘉微、部分军工	不做 GPGPU
通用 GPU（GPGPU）	图形 + 通用计算 + AI	Nvidia、AMD	一样的路线

摩尔线程选的路线是最难的，因为它需要：

图形管线（Raster + Compute + Vulkan）

通用计算（SIMD/SIMT 并行架构）

AI Tensor 核（矩阵乘）

而 Nvidia、AMD 做了二十多年才走通这条路。

摩尔线程成立 2020 年，速度算是极快。

三、MUSA 架构本质是什么？

官方的宣传词很复杂，但拆开来看，工程上可理解为三点：

1. 多模态统一架构（图形 + AI + 通用计算合一）

也就是说，一颗芯片里的执行单元（EU/SM 类结构）：

既能跑图形 shader

又能跑并行计算 kernel

还能跑矩阵乘/AI 运算

这是典型的 GPGPU 架构设计，和 CUDA SM 核的概念相近。

2. 指令集自研（ISA 自己定义）

做 GPU 必须有自己的 ISA，否则驱动、编译器、框架适配都没法玩。
MUSA ISA 本质上是：

SIMT/SIMD 混合并行指令

加强矩阵运算

兼容图形 shader 流程

允许图形和计算共享同一个调度器

3. 软件栈与 CUDA 对标

简单理解：

CUDA = Nvidia 的生态壁垒

MUSA = 摩尔线程试图复制的国产 CUDA

要国产 GPU 真的形成生产力，必须跟主流框架适配：

Pytorch 抽象层

TensorRT 类推理模块

cuBLAS/cuDNN 类加速库

图形接口（Vulkan/GL）

行业 SDK

摩尔线程现在做的是一个“非对称替代”，也就是：

为主流 API 提供“兼容层 + 本地库优化”，让应用迁移成本降低。

四、摩尔线程的产品体系

可以用一个工程视角的“三层金字塔”描述：

顶层：算力产品（卡/整机）

数据中心训练卡

推理卡

图形渲染卡

行业 GPU 服务器

中层：软件栈

MUSA SDK

深度学习框架插件

图形渲染库

视频/可视化/仿真 SDK

底层：芯片架构

全功能 GPGPU 架构

自研 ISA

平行执行单元

Tensor 核

图形流水线

显存子系统

这套体系完整程度，在国产 GPU 厂商里属于“较先进”而非“最完善”。

但与真正成熟的 Nvidia CUDA 体系相比，还处在早期建设阶段。

五、摩尔线程的优势（工程视角）

从工程角度看，它的优势不是“性能第一”，而是：

1. 路线对、愿景大

中国缺的是全栈通用 GPU，而不是单点加速器。
摩尔线程做的正好是国内最缺的一块。

2. 研发节奏快

短短几年迭代多代芯片，这在 GPU 这个超复杂品类里非常罕见。
说明团队工程执行力强。

3. 产品线覆盖面广

图形

通用算力

AI 算力

行业渲染

边缘与终端

国产厂商里做“全场景布局”的不多。

4. 软件投入大

国产 GPU 最大短板是软件，摩尔线程是少数把钱砸在驱动、中间件、开发工具上的公司。

六、工程难点在哪里？

摩尔线程的路线虽然正确，但难度也最高。主要难三点：

1. 通用 GPU 架构本身极其复杂

要同时兼顾：

复杂图形流水线

高带宽显存架构

大规模并行调度

AI 张量核性能

通用计算模型

多媒体编解码

每一个模块都是十年以上积累的工程体系。

2. 驱动与 API 的复杂度不亚于硬件

Nvidia CUDA 生态 15 年积累，而摩尔线程成立才几年。

GPU 软件链是“坑极深”的工程活：

kernel 调度

并行编译器

异构资源管理

显存管理

AI 框架集成

图形栈兼容

如果软件不成熟，硬件性能永远跑不出来。

3. 生态成本巨大

GPU 不是“造出来就算完”。
你得：

让开发者迁移代码

跑主流推理框架

跑主流图形框架

跑行业三方软件（CAD/CAE/渲染等）

生态是长期工程，不可能一年两年完成。

七、行业定位：国内 GPU 的哪一档？

按业内普遍划分，国产 GPU roughly 三个梯队：

阶段	厂商	特点
第一梯队（通用 GPU）	壁仞、摩尔线程、沐曦	做 GPU/AI 双路线，有完整架构
第二梯队（偏 AI）	寒武纪等	不做图形
第三梯队（偏图形/行业）	景嘉微等	不涉 AI 通用算力

摩尔线程属于第一梯队，但：

与 Nvidia/AMD 差距仍是代际级

软件生态仍在成长

订单规模还不大

但路线最符合国家长期战略需求。

八、从工程师视角看摩尔线程未来的关键点

1. 能否把 MUSA ISA 和驱动真正“跑顺”

性能跑不满、兼容问题多、框架调用不稳定，这些都会影响客户体验。

2. 下一代 GPU 架构是否能实现稳定迭代

GPU 是高速迭代行业，代际不稳会拖死生态。

3. AI 性能能否在主流场景达到“可替代”级别

不求超越 A100/H100，但至少得满足：

中等规模训练

大规模推理集群

足够的算力密度和能效

4. 软件栈能不能跟上

CUDA 生态不是硬件性能堆出来的，是 API 与工具链的完整性构建出来的。

九、总结：摩尔线程是什么？

摩尔线程是一家试图用全功能 GPU 架构补上中国“通用算力 + 图形渲染 + AI 加速”缺口的公司，它的路线最难但也最必要。芯片硬件在成型，软件栈在补齐，生态在建设，但与国际巨头仍在代差期。未来能否站住脚，取决于架构迭代、软件成熟度和生态落地能力。