AI基础设施术语大全

AI基础设施竞争，已经不再只是“谁的芯片跑分更高”，而是“谁能把芯片、内存、网络、软件、电力和数据中心组织成一台更高效的智能生产机器”。

在摩尔定律边际放缓之后，半导体产业的胜负手，越来越从单芯片设计，转向系统级协同设计；从“卖器件”，转向“卖平台”；从“训练一次”，转向“长期推理运营”。

一、什么叫“AI基础设施”？

AI基础设施（AI Infrastructure）

指支撑人工智能训练、后训练、推理和部署的一整套底层系统。它不只是芯片，而是包括：

计算芯片（GPU、CPU、ASIC、TPU等）

存储与内存（HBM、DDR、SSD等）

互连与网络（NVLink、InfiniBand、Ethernet、交换机）

服务器与机柜

数据中心电力与散热

软件栈（CUDA、编译器、分布式训练框架）

云平台与调度系统

一句话理解：AI基础设施不是一颗芯片，而是一座“AI工厂”的全部设备与管线。

二、计算芯片类术语

1. GPU

图形处理器（Graphics Processing Unit）

原本用于图形渲染，后来因为特别擅长大规模并行计算，成为AI训练和推理的主力芯片。

通俗解释：CPU像一个很聪明的管理者，GPU像一支能同时干很多重复性工作的超大施工队。

2. CPU

中央处理器（Central Processing Unit）
负责通用计算、操作系统、任务调度、控制逻辑。AI系统里，CPU通常不负责主要训练计算，但负责“指挥”和“协调”。

通俗解释：CPU像大脑里的“总控中枢”，GPU像真正出力干活的“肌肉群”。

3. ASIC

专用集成电路（Application-Specific Integrated Circuit）

为某种特定任务专门设计的芯片，比如AI训练或推理专用芯片。

特点：

优点：效率高、能耗低、针对性强

缺点：通用性弱、生态难做、开发成本高

代表：

Google TPU

AWS Trainium / Inferentia

各类AI加速芯片创业公司产品

4. TPU

Tensor Processing Unit
Google自研的AI专用加速器，本质上是一类针对张量计算优化的ASIC。

通俗解释：如果GPU是“万能型重型机械”，TPU更像“为AI大规模矩阵运算定制的专用生产线设备”。

5. AI加速器（AI Accelerator）

泛指专门加速AI计算的芯片，范围比GPU更大，包含GPU、TPU、NPU、部分ASIC等。

6. NPU

神经网络处理器（Neural Processing Unit）
常用于手机、PC、边缘设备中的AI计算单元，也可泛指神经网络专用处理模块。

常见场景：

手机本地AI

AI PC

摄像头边缘识别

机器人终端

7. 通用芯片 vs 专用芯片

通用芯片：适合更多类型任务，灵活，比如CPU、GPU

专用芯片：专门为某类计算设计，效率高，比如TPU、Trainium

核心矛盾：AI时代一直在讨论：到底是“通用平台胜出”，还是“专用芯片分流”。

三、AI计算核心概念

8. 张量（Tensor）

AI模型处理数据的基本数学形式，可以理解为“多维数组”。

通俗解释：标量是一个数，向量是一列数，矩阵是一张表，张量就是更高维度的数据盒子。

9. 矩阵乘法（Matrix Multiplication）

深度学习最核心的计算操作之一。大模型训练的大部分算力都耗在矩阵乘法上。

为什么重要：谁能更高效地做矩阵乘法，谁就更可能在AI芯片竞争中占优势。

10. FLOPS

每秒浮点运算次数（Floating Point Operations Per Second）

衡量芯片理论计算能力的指标。

常见单位：

TFLOPS：万亿次

PFLOPS：千万亿次

EFLOPS：百亿亿次

注意：FLOPS高不等于真实AI性能一定强，因为还要看内存、互连、软件利用率。

11. TOPS

每秒万亿次操作（Tera Operations Per Second）
常用于边缘AI、推理芯片宣传，表示整数或低精度运算能力。

注意：TOPS常被用于营销，读者要看清是何种精度下的TOPS。

12. 吞吐量（Throughput）

单位时间内系统完成的任务量，比如每秒生成多少token、每秒处理多少张图片。

适合衡量：

云端推理效率

模型服务能力

数据中心产能

13. 延迟（Latency）

从输入请求到输出结果所花的时间。

举例：

问AI一个问题，多久开始回答

模型每生成一个token需要多久

AI应用里常见矛盾：

高吞吐通常追求批量效率

低延迟追求用户体验
两者常常需要平衡

14. 利用率（Utilization）

芯片或集群的实际工作效率。
比如一块GPU理论很强，但如果大部分时间都在等待数据，那利用率就不高。

为什么重要：大模型时代，比拼的不只是芯片峰值性能，而是“真实系统利用率”。

四、精度与数值格式

15. FP32

32位浮点数
传统高精度计算常用格式。

16. FP16

16位浮点数
比FP32更省内存和带宽，训练中大量使用。

17. BF16

Brain Floating Point 16
一种对深度学习更友好的16位格式，训练中非常流行。

为什么重要：
很多大模型训练已经从FP32转向BF16/FP16，以提高效率。

18. INT8 / INT4

8位整数 / 4位整数
多用于推理和量化，可以显著降低显存占用和功耗。

通俗解释：
精度略降一点，换来更便宜、更快、更省电的推理。

19. 量化（Quantization）

把模型参数从高精度压缩到低精度，比如FP16变INT8、INT4。

作用：

降低显存需求

降低部署成本

提升推理吞吐

代价：

可能损失部分精度

工程实现难度提高

20. 混合精度训练（Mixed Precision Training）

训练过程中混合使用高精度和低精度数值格式，以兼顾稳定性和效率。

五、内存与存储术语

21. HBM

高带宽内存（High Bandwidth Memory）
AI芯片最关键的配套资源之一。和GPU/AI芯片封装得很近，带宽极高。

为什么重要：今天很多AI系统的瓶颈不只是算力，而是“喂不饱算力”的内存带宽。

一句话：HBM是AI芯片时代最贵、最紧缺、最关键的资源之一。

22. 显存（VRAM）

GPU用于存放模型参数、中间激活值、KV Cache等的数据空间。

23. 带宽（Bandwidth）

单位时间内能传输多少数据。
AI训练和推理都非常依赖高带宽内存和高带宽网络。

24. 容量（Capacity）

能装下多少数据。
在AI里，容量决定模型能不能放进去，带宽决定模型跑得快不快。

25. KV Cache

大语言模型推理时，为了避免重复计算，会缓存注意力机制中的Key和Value。

为什么重要：

长上下文会显著增加KV Cache开销

这是推理成本上升的重要来源之一

26. SSD

固态硬盘
用于存储训练数据集、模型权重、检查点等。

27. 检查点（Checkpoint）

训练过程中定期保存的模型状态文件。
方便中断恢复、继续训练或后续微调。

六、互连与网络术语

28. NVLink

英伟达的高速芯片互连技术，用于GPU和GPU之间高速通信。

为什么重要：
单卡算力再强也不够，大模型训练必须多卡协同。NVLink就是让GPU之间“说话更快”的专用高速通道。

29. NVSwitch

用于把多块GPU连接成更大高速互联域的交换芯片。

通俗解释：
NVLink像高速公路，NVSwitch像大型立交枢纽。

30. InfiniBand

一种高性能网络技术，常用于AI训练集群和高性能计算集群。

特点：

低延迟

高带宽

适合大规模分布式训练

31. Ethernet

以太网。传统数据中心最常见的网络方案。
如今也越来越多被用于AI集群，尤其在大规模云厂商中。

产业趋势：
AI网络并不一定都走InfiniBand，越来越多公司在推动高性能以太网AI集群。

32. 交换机（Switch）

负责在服务器、机柜、节点之间转发数据流量的网络设备。

33. RDMA

远程直接内存访问（Remote Direct Memory Access）
让一台机器能绕过过多CPU干预，直接访问另一台机器内存，提高效率、降低延迟。

34. Scale-Up

指单个系统内的扩展，比如一台服务器里增加更多GPU，并通过NVLink/NVSwitch高速互连。

35. Scale-Out

指跨服务器、跨机柜扩展，通过网络把大量节点组成更大集群。

区别：

Scale-Up：做大“单机”

Scale-Out：做大“整个集群”

36. 拓扑（Topology）

网络连接结构设计。
比如GPU之间怎么连、机柜之间怎么连，会直接影响训练效率和成本。

七、训练相关术语

37. 预训练（Pre-training）

用海量数据让模型学习语言、图像、代码等通用规律，是大模型能力的基础阶段。

38. 后训练（Post-training）

预训练之后的对齐、微调、强化学习等过程，用来让模型更实用、更安全、更符合人类意图。

39. 微调（Fine-tuning）

在已有基础模型上用更小数据集继续训练，使其适应特定任务。

40. 指令微调（Instruction Tuning）

让模型学会更好地遵循人类指令。

41. 强化学习（Reinforcement Learning）

通过奖励机制优化模型行为。
在AI领域，常见于对齐和复杂推理优化。

42. RLHF

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）
通过人工偏好数据帮助模型学会更符合人类喜好的回答方式。

43. 合成数据（Synthetic Data）

不是来自真实世界直接采集，而是由模型、程序或规则生成的数据。

为什么重要：
真实高质量数据越来越稀缺，合成数据越来越成为重要补充。

44. 数据并行（Data Parallelism）

多张卡同时处理不同批次的数据，然后同步参数。

45. 模型并行（Model Parallelism）

当模型太大，一张卡装不下，就把模型切分到多张卡上运行。

46. 张量并行（Tensor Parallelism）

把某一层中的矩阵计算拆给多张GPU并行完成。

47. 流水线并行（Pipeline Parallelism）

把模型不同层分到不同设备上，像工厂流水线一样顺序处理。

48. 分布式训练（Distributed Training）

利用大量加速器共同完成模型训练。

核心难点：
不是“卡越多越好”，而是通信、同步、负载均衡都很复杂。

49. 梯度同步（Gradient Synchronization）

多卡训练后，需要把各卡算出的梯度同步，才能继续一致地更新参数。

50. 批大小（Batch Size）

一次送入模型训练的数据量。
批越大，吞吐可能更高，但训练稳定性和显存压力也会变化。

八、推理相关术语

51. 推理（Inference）

模型训练完成后，真正拿来回答问题、生成图片、写代码的执行过程。

一句话：
训练是“学”，推理是“用”。

52. 在线推理（Online Inference）

面向实时请求的推理服务，比如聊天机器人、搜索问答、实时推荐。

53. 离线推理（Offline Inference）

提前批量处理任务，不追求实时响应，比如文档批量总结、广告排序预计算。

54. 首token时间（TTFT, Time To First Token）

用户发出请求后，模型生成第一个token需要多久。

为什么重要：
这直接影响用户觉得“这个AI快不快”。

55. 每秒token数（Tokens per Second）

衡量模型生成速度的重要指标。

56. 批处理（Batching）

把多个用户请求打包一起处理，提高吞吐量。

代价：
可能会增加单个用户等待时间。

57. 动态批处理（Dynamic Batching）

系统根据实时请求自动组合批次，兼顾吞吐与延迟。

58. 服务化推理（Serving）

把模型包装成可调用服务，供应用或用户访问。

59. 推理引擎（Inference Engine）

专门优化模型部署和推理执行的软件系统。

常见作用：

图优化

算子融合

内存管理

调度优化

60. 编译器优化（Compiler Optimization）

把模型计算图转换成更适合硬件执行的形式，以提升性能。

九、大模型特有术语

61. Token

模型处理文本时的最小单位，不一定等于“一个字”或“一个单词”。

62. 上下文窗口（Context Window）

模型一次能处理的输入长度范围。

例如：
8K、32K、128K、1M上下文。

意义：
上下文越长，模型一次能“记住”的内容越多，但推理成本通常也更高。

63. 参数量（Parameters）

模型中可学习权重的数量，比如7B、70B、175B。

注意：
参数量大不等于一定更强，数据、训练方法、后训练和推理系统同样重要。

64. 稠密模型（Dense Model）

每次推理时，大部分参数都会参与计算的模型。

65. MoE

混合专家模型（Mixture of Experts）
模型由多个“专家模块”组成，每次只激活其中一部分。

优点：

总参数量可非常大

单次计算量不一定同比增长

难点：

路由复杂

通信要求高

系统调度更难

66. 路由（Routing）

MoE中决定某个token交给哪些专家处理的机制。

67. 激活参数（Active Parameters）

MoE推理时实际参与运算的那部分参数。

68. 长上下文（Long Context）

模型可以处理超长输入内容的能力。

产业意义：
长上下文不仅是模型能力问题，也是基础设施问题，因为KV Cache和显存压力会迅速上升。

69. 思维链（Chain of Thought）

模型通过分步骤推理来提升复杂任务正确率的方式。

基础设施影响：
思维链越长，通常意味着推理token更多、延迟更高、成本更高。

70. Test-Time Compute

测试时算力 / 推理时算力
不是在训练时增加计算，而是在回答问题时给模型更多算力、更多步骤、更多搜索机会，以换取更好的答案。

这是AI产业的重要变化：
未来竞争不只看训练算力，还看推理阶段能否高效使用更多算力。

71. Agent / Agentic Systems

让模型不只是回答问题，而是能调用工具、分解任务、执行多步流程的系统。

影响：
Agent系统通常带来：

更多token消耗

更多轮调用

更复杂的推理资源管理

更高的基础设施需求

十、系统与数据中心术语

72. AI服务器

专门为AI训练或推理设计的服务器，通常包含多颗GPU/AI加速器、高带宽互连和高功率供电。

73. 节点（Node）

集群中的一台服务器。

74. 机柜（Rack）

数据中心中安装服务器、电源、网络设备的柜体。

75. Pod / Superpod

由大量服务器和网络组成的更大规模AI集群单元。

76. 集群（Cluster）

由大量计算节点组成的统一计算系统。

77. AI工厂（AI Factory）

一种强调“工业化生产AI”的说法。
它不是学术集群，而是持续把电力、数据和计算转化为智能输出的生产系统。

黄仁勋式表达里常见含义：

数据中心不是IT成本中心，而是智能制造工厂

Token是产品，算力是产线，电力是原材料

78. 数据中心（Data Center）

部署服务器、存储、交换机、电力和冷却设施的地方。

79. TDP

热设计功耗（Thermal Design Power）
芯片设计中需要按多大散热能力去准备。

80. 功耗墙（Power Wall）

芯片和系统性能提升越来越受制于电力供应和散热能力，而不是晶体管数量本身。

81. 液冷（Liquid Cooling）

通过液体带走热量的散热技术，越来越适用于高功率AI服务器。

82. PUE

电能使用效率（Power Usage Effectiveness）
衡量数据中心整体能效的指标。

83. 电力容量（Power Capacity）

数据中心能够提供的总供电能力。
AI时代，很多项目卡的不是芯片，而是电力、变压器和冷却系统。

十一、软件生态术语

84. CUDA

英伟达构建的GPU计算软件平台和编程生态。

为什么关键：
很多人以为英伟达强在芯片，其实它更强的是“芯片+互连+软件生态”的整个平台。

85. ROCm

AMD的GPU软件栈，目标是对标CUDA。

86. 编译器（Compiler）

把模型和程序转换成底层硬件可执行指令的软件工具。

87. 驱动（Driver）

连接操作系统和硬件的底层软件。

88. 框架（Framework）

开发和训练模型的软件框架，如PyTorch、JAX、TensorFlow。

89. 算子（Operator）

模型计算中的基本操作单元，如矩阵乘法、卷积、归一化等。

90. 内核（Kernel）

在GPU等设备上执行某个具体计算任务的底层程序单元。

91. 软件栈（Software Stack）

从应用到框架、编译器、驱动、固件的整套软件体系。

92. 生态（Ecosystem）

围绕某个平台形成的开发者、工具链、合作伙伴、应用适配能力。

产业结论：
AI芯片竞争，不是谁芯片先做出来就赢，而是谁先建立“可用生态”谁更强。

十二、商业与产业竞争术语

93. 超大规模云厂商（Hyperscaler）

指超大规模建设和运营数据中心的云公司。

典型代表：

AWS

Microsoft Azure

Google Cloud

Meta（虽非传统公有云，但属于超大规模基础设施运营者）

94. 自研芯片（In-house Silicon）

云厂商自己设计芯片，而不是完全依赖外部供应商。

原因：

降低成本

提高供应链掌控力

针对自家工作负载优化

对冲英伟达议价权

95. CAPEX

资本开支（Capital Expenditure）
建设数据中心、购买GPU服务器、网络设备等的大额前期投入。

96. OPEX

运营开支（Operating Expenditure）
日常运营成本，如电费、维护费、带宽费、人力成本等。

97. TCO

总拥有成本（Total Cost of Ownership）
不仅是买芯片多少钱，而是系统全生命周期总成本。

包括：

芯片采购

网络

机柜

电力

冷却

运维

软件迁移成本

98. 单芯片思维 vs 系统级思维

单芯片思维：只盯着某颗芯片的性能

系统级思维：看整机、互连、软件、网络、功耗、利用率和部署效率

AI时代的核心变化：
摩尔定律放缓之后，竞争越来越从“单颗芯片更快”转向“整个系统更优”。

99. 系统级协同设计（System Co-Design）

芯片、封装、网络、内存、软件、数据中心一起协同优化，而不是各自独立设计。

一句话：
今天的AI基础设施竞争，本质上越来越像“整个平台工程竞争”。

100. 平台型公司（Platform Company）

不只卖芯片，而是卖整套开发生态、服务器架构、网络、软件与解决方案的公司。

典型理解：
英伟达越来越像平台公司，而不只是GPU供应商。

十三、宣传叙事中常见高频词

下面这些词，公众号写作时最好提示读者：它们有时是事实，有时是战略表达，有时是估值叙事。

101. “加速计算（Accelerated Computing）”

意思是用GPU/加速器替代传统CPU主导计算。
既是技术趋势，也是一种平台叙事。

102. “AI工厂（AI Factory）”

既可以理解为新的数据中心形态，也是一种很强的商业包装语言。

103. “全栈（Full Stack）”

公司不仅做芯片，还做网络、服务器、软件、模型工具链。
这通常意味着更强控制力，也意味着更高估值叙事空间。

104. “端到端（End-to-End）”

从芯片到云服务到应用，一家公司尽量打通全链路。

105. “主权AI（Sovereign AI）”

一个国家或地区希望拥有自己的AI算力、数据和模型能力，不完全依赖外国平台。

106. “Token工厂”

把token生产类比为工业生产，是AI推理经济学的一种形象说法。

107. “推理时代”

强调未来AI需求不只在训练，更在大规模、高频、长期的推理。

108. “推理爆发 / 推理扩张”

指随着AI普及，真正消耗算力的可能是海量推理请求，而非一次性训练。

十四、普通读者最容易混淆的术语对照

1. GPU 和 CPU 有什么区别？

CPU：通用、控制强、单线程能力强

GPU：并行能力强，适合AI大规模计算

2. GPU 和 ASIC 有什么区别？

GPU更通用，生态成熟

ASIC更专用，理论效率更高，但适配范围更窄

3. 训练和推理有什么区别？

训练：让模型学会能力

推理：让模型实际干活

4. HBM 和显存是不是一回事？

HBM通常是高端AI加速器上的显存技术形态之一；显存是更泛的概念。

5. NVLink 和网络有什么区别？

NVLink更多是服务器内部或近距离高性能互连；数据中心网络则负责更大范围连接。

6. 算力强就一定赢吗？

不一定。还要看：

内存带宽

网络

软件生态

功耗

成本

实际利用率