AI基础设施100词：从GPU到AI工厂，一文看懂大模型时代的底层战争

如果说过去十年科技产业的主角是智能手机，那么未来十年的主角，很可能就是AI基础设施。

很多人以为，大模型竞争就是“谁家的模型更聪明”。但在产业层面，真正决定胜负的，往往不是聊天界面上的答案，而是背后那套庞大的基础设施系统：芯片、内存、网络、服务器、数据中心、电力、散热、软件栈、云平台，以及把它们组织起来的系统工程能力。

换句话说，今天的AI战争，表面上看是模型之战，底层其实是基础设施之战。
而理解这场战争，最好的方式，就是先把核心术语搞清楚。

这篇文章，就用100个关键词，带你从GPU一路看到AI工厂，系统理解大模型时代的底层竞争逻辑。

一、总览篇：什么是AI基础设施？

1. AI基础设施

指支撑人工智能训练、后训练、推理和部署的一整套底层系统。
它不仅包括芯片，也包括服务器、网络、存储、软件平台、数据中心和电力冷却系统。

一句话理解：
AI基础设施不是一颗芯片，而是一整座“智能生产工厂”。

2. AI工厂（AI Factory）

这是近两年非常流行的说法。
意思是：未来的数据中心，不再只是存储和计算的IT机房，而是把电力、算力、数据持续转化为token、模型能力和AI服务的“工厂”。

它既是技术概念，也是产业叙事。

3. 数据中心（Data Center）

部署服务器、存储、交换机、网络设备、电源和冷却设施的物理空间。
AI时代的数据中心越来越像重工业基础设施，而不只是互联网机房。

4. 集群（Cluster）

由大量计算节点组成、统一调度的计算系统。
大模型训练不是靠一台机器完成，而是靠成百上千，甚至成千上万颗加速器组成集群。

5. 节点（Node）

集群中的一台服务器，通常装有多颗GPU或AI加速器。

6. 机柜（Rack）

数据中心里安装服务器、电源和网络设备的标准柜体。
今天讨论AI基础设施，很多时候已经不是“单卡性能”问题，而是“整柜功耗”和“整柜散热”问题。

7. Pod

由多个机柜、多个节点组成的较大规模计算单元。
你可以把它理解为“数据中心里的一个大型算力车间”。

8. Superpod

比Pod更大的AI基础设施部署单元，通常用于超大规模训练和推理系统。

二、计算芯片篇：谁在提供AI时代的“发动机”？

9. CPU

中央处理器，通用计算核心。
在AI系统里，CPU更多负责控制、调度、数据管理和系统运行，而不是主要AI计算。

比喻：
CPU像总指挥，GPU像真正干重活的大型施工队。

10. GPU

图形处理器，本来是为图形渲染设计，后来因为特别擅长大规模并行计算，成为AI训练和推理的核心芯片。

为什么GPU能赢？
因为深度学习本质上需要做海量重复矩阵运算，而这恰恰是GPU最擅长的事。

11. AI加速器

泛指专门用来加速AI运算的芯片。
GPU是AI加速器的一种，TPU、NPU、部分ASIC也都属于AI加速器。

12. ASIC

专用集成电路。
指为某一类任务专门设计的芯片，比如专门做AI训练或推理。

特点：

优势：效率高、能耗低、针对性强

劣势：通用性差、生态难做、适配工作重

13. TPU

Google自研的AI专用加速器。
本质上，它是面向张量运算优化的一类ASIC。

14. NPU

神经网络处理器。
通常用于手机、PC、边缘设备等场景，负责本地AI能力。

15. DPU

数据处理器。
主要负责网络、存储、安全等基础设施卸载，不直接承担主要模型训练任务，但在大规模AI数据中心中越来越重要。

16. 通用芯片

可适应多种任务场景的芯片，比如CPU、GPU。
优点是灵活，缺点是未必针对某一场景做到极致效率。

17. 专用芯片

专门为某类任务做优化的芯片，比如TPU、部分推理ASIC。
优点是效率更高，难点是生态和通用性。

18. 异构计算

系统中同时使用不同类型芯片协同工作，比如CPU+GPU+DPU。
AI时代，单一芯片已经很难解决所有问题，异构计算越来越成为主流。

三、算力基础篇：为什么AI这么“吃算力”？

19. 张量（Tensor）

深度学习里的基础数据结构，可以理解为“多维数组”。

20. 矩阵乘法

深度学习最核心的运算之一。
大模型训练的大部分算力，最终都消耗在矩阵乘法上。

21. 浮点运算

带小数的数值运算。
AI训练和高精度推理大量依赖浮点计算能力。

22. FLOPS

每秒浮点运算次数，用于衡量理论算力水平。

常见单位包括：

TFLOPS：万亿次

PFLOPS：千万亿次

EFLOPS：百亿亿次

23. TOPS

每秒万亿次操作。
常用于边缘AI或低精度推理芯片宣传。

注意：
TOPS常常更适合营销口径，不能简单等同于真实模型表现。

24. 峰值性能

芯片在理想状态下的理论最大算力。
现实世界中，系统通常达不到这个峰值。

25. 实际性能

在真实训练、推理任务中的表现。
这才是用户真正关心的性能。

26. 吞吐量（Throughput）

单位时间内系统处理任务的能力，比如每秒生成多少token。

27. 延迟（Latency）

从发起请求到得到结果所需的时间。
推理系统里，延迟越低，用户体验通常越好。

28. 利用率（Utilization）

芯片或集群实际被有效使用的程度。
理论算力再强，如果大部分时间都在等数据、等通信，那利用率也会很差。

29. 算力墙

今天很多系统继续提速的瓶颈，不只是设计更强芯片，而是如何让整套系统真正把算力用起来。

四、精度与数值格式篇：为什么不是精度越高越好？

30. FP32

32位浮点数，传统高精度计算常见格式。

31. FP16

16位浮点数。
相比FP32更省内存、更省带宽，也更适合大规模AI训练。

32. BF16

一种对深度学习更友好的16位格式。
如今很多大模型训练会大量使用BF16。

33. INT8

8位整数格式，推理场景中很常见。

34. INT4

4位整数格式。
压缩更激进，部署成本更低，但对精度保持的挑战更高。

35. 量化（Quantization）

把模型从高精度压缩成低精度表示，比如从FP16降到INT8或INT4。
目的是降低显存占用、降低成本、提高推理效率。

36. 混合精度训练

训练过程中混合使用不同精度的数据格式，以同时兼顾训练稳定性和效率。

37. 数值稳定性

模型训练时，低精度计算可能带来的误差、溢出或梯度异常问题。
所以并不是“精度越低越省钱”就一定最好。

五、内存与存储篇：为什么今天HBM这么重要？

38. HBM

高带宽内存。
这是AI芯片时代最关键的资源之一，通常与GPU或AI加速器紧密封装，提供极高的数据传输带宽。

一句话：
今天很多AI系统的瓶颈，不在“算得不够快”，而在“数据喂得不够快”。

39. 显存（VRAM）

GPU上用于存储模型参数、激活值、KV Cache等数据的存储空间。

40. 内存带宽

单位时间能传输的数据量。
AI训练和推理都极度依赖高带宽。

41. 容量

能装下多少数据。
容量决定模型能否放进去，带宽决定模型能跑多快。

42. DDR

传统服务器内存，容量较大但带宽通常低于HBM。

43. SRAM

速度很快但容量小、成本高的存储形式，通常位于芯片内部，用于高速缓存。

44. Cache

缓存。
用于减少访问慢速内存的次数，提高数据访问效率。

45. KV Cache

大语言模型推理中缓存注意力机制中Key和Value的结构。
长上下文推理时，KV Cache会显著占用显存，是推理成本的重要来源。

46. SSD

固态硬盘。
用于存放数据集、模型权重、训练日志、检查点等。

47. 检查点（Checkpoint）

训练过程中定期保存的模型状态文件。
方便断点续训、恢复训练和后续微调。

六、互连与网络篇：多卡协同为什么这么难？

48. 互连（Interconnect）

不同芯片、不同服务器之间进行高速通信的技术总称。
大模型训练的本质是“很多芯片一起干活”，所以互连极其关键。

49. NVLink

英伟达的高速GPU互连技术。
主要解决GPU之间如何更快交换数据的问题。

50. NVSwitch

连接多颗GPU的交换芯片。
你可以把它理解成GPU之间高速通信的“交通枢纽”。

51. InfiniBand

一种高性能网络技术，常用于高性能计算和AI训练集群。
特点是高带宽、低延迟。

52. Ethernet

以太网。
传统数据中心最主流的网络方式。
如今也正被越来越多用于AI集群。

53. RDMA

远程直接内存访问。
允许服务器绕过过多CPU参与，直接高效访问远程内存，降低延迟、提高通信效率。

54. 交换机（Switch）

网络里的数据分发中心。
在大规模AI集群里，交换机的重要性已经不亚于服务器本身。

55. 拓扑（Topology）

指整个集群中芯片、服务器、机柜的连接结构。
拓扑设计不好，会导致训练效率大幅下降。

56. Scale-Up

单机或单系统内部扩展。
比如一台服务器里连接更多GPU。

57. Scale-Out

跨服务器、跨机柜扩展。
通过网络把更多节点连成更大集群。

58. 东西向流量

服务器之间横向交换的数据流。
AI训练集群里，这类流量非常大，对网络要求极高。

七、训练篇：模型是怎么“学会”的？

59. 训练（Training）

让模型通过大量数据调整参数、形成能力的过程。

60. 预训练（Pre-training）

用海量通用数据训练基础模型，是模型获得语言、图像、代码等一般能力的关键阶段。

61. 后训练（Post-training）

预训练完成后，为了让模型更可用、更安全、更会听指令而进行的一系列优化过程。

62. 微调（Fine-tuning）

在已有模型基础上，用更小、更专业的数据继续训练，使其适应特定任务。

63. 指令微调

让模型更善于理解并执行人类指令的训练方式。

64. 对齐（Alignment）

让模型输出更符合人类意图、规范、安全要求的过程。

65. RLHF

基于人类反馈的强化学习。
通过人工偏好数据提升模型回答质量和风格一致性。

66. 合成数据

不是直接采集于现实世界，而是通过模型、程序或规则自动生成的数据。
在高质量训练数据变得稀缺后，合成数据越来越重要。

67. 批大小（Batch Size）

一次训练中送入模型的数据量。
批大小会影响训练吞吐、稳定性和显存占用。

68. 梯度

模型训练时，用来指导参数更新方向的核心量。

69. 梯度同步

多卡训练后，不同设备需要同步梯度，以保证更新方向一致。

70. 分布式训练

用大量GPU或AI加速器共同完成训练。
这已经是大模型时代的标准做法。

71. 数据并行

把不同数据分给不同设备并行处理，再同步结果。

72. 模型并行

把模型拆分到多张卡上运行，用于单卡放不下的大模型。

73. 张量并行

把某一层内部的大矩阵运算进一步拆分给多张GPU并行处理。

74. 流水线并行

把模型不同层分配到不同设备上，像工厂流水线一样接力执行。

八、推理篇：模型真正赚钱，靠的不是训练而是“使用”

75. 推理（Inference）

模型训练完成后，实际响应用户请求、生成内容、提供服务的过程。

76. 在线推理

面向实时请求的推理。
比如聊天机器人、搜索问答、实时生成应用。

77. 离线推理

不追求实时响应，而是批量执行任务。
比如批量摘要、内容审核、离线推荐。

78. Serving

把模型包装成可被调用的服务，供应用程序和用户访问。

79. 推理引擎

专门为模型部署和推理执行做优化的软件系统。
目标是跑得更快、占用更少、调度更稳。

80. 首token时间（TTFT）

从用户发起请求到模型输出第一个token的时间。
它非常影响“这个AI快不快”的主观感受。

81. 每秒token数

衡量模型生成速度的常见指标。

82. 批处理（Batching）

把多个请求打包一起算，以提高吞吐量。

83. 动态批处理

根据实时请求自动组织批次，在吞吐和延迟之间找平衡。

84. Prefill

模型先读取并处理全部输入上下文的阶段。
长上下文下，Prefill开销很大。

85. Decode

模型逐步生成输出token的阶段。
聊天类应用大多对Decode速度非常敏感。

九、大模型篇：为什么大模型正在重塑基础设施？

86. Token

模型处理文本的最小单位。
它不一定等于一个字，也不一定等于一个单词。

87. 上下文窗口（Context Window）

模型一次性能处理的输入长度范围。
上下文越长，模型一次能“看见”的信息越多。

88. 参数量

模型中可学习权重的数量，比如7B、70B、175B。
参数多不一定绝对更强，但通常意味着更大的模型容量。

89. 稠密模型（Dense Model）

每次推理时，大部分参数都会参与计算的模型。

90. MoE

混合专家模型。
模型里有多个“专家模块”，每次只激活其中一部分。

它的意义在于：
可以把总模型做得很大，但单次计算量未必同比暴涨。

91. 路由（Routing）

MoE系统中，决定某个token交给哪些专家处理的机制。

92. 激活参数

MoE在一次推理中真正参与计算的那部分参数。

93. 长上下文

模型能处理很长输入内容的能力。
这不只是模型能力问题，更是基础设施问题，因为它会显著推高显存和KV Cache开销。

94. 思维链（Chain of Thought）

模型通过分步骤推理来提高复杂任务正确率的方式。
但思维链越长，通常也意味着推理时间更长、成本更高。

95. Test-Time Compute

推理时算力。
意思是：不是在训练阶段加更多算力，而是在模型回答问题时投入更多算力和步骤，以换取更好的答案。

这正在改变AI基础设施的需求结构。

96. Agent

不只是回答问题，而是能调用工具、分解任务、执行流程的AI系统。

97. Agentic Systems

由多个模型、工具、记忆、任务流和反馈环组成的复杂智能系统。
它们比普通聊天机器人更耗资源，也更依赖推理基础设施。

十、产业与商业篇：为什么今天拼的不是单芯片，而是整个平台？

98. CUDA

英伟达的GPU软件平台和生态体系。
它的重要性不只是“让GPU能跑”，而是让开发者、框架、工具链都围绕它形成标准。

99. 软件栈（Software Stack）

从应用层、框架层、编译器、驱动到固件的整套软件体系。
AI基础设施竞争，软件栈越来越重要。

100. 系统级协同设计（System Co-Design）

芯片、内存、互连、封装、服务器、软件、数据中心一起协同优化，而不是只优化一颗芯片。
这正是AI时代最核心的竞争逻辑。

摩尔定律红利放缓之后，半导体产业的胜负手，正从“单颗芯片更快”转向“整个系统更强”。如果只看表面，AI基础设施像是在比谁有更强的GPU。
但往下看一层，你会发现竞争已经变成：

谁能拿到更多HBM

谁能做更好的互连网络

谁能把数千颗加速器真正组织起来

谁能把训练成本打下来

谁能把推理吞吐提上去

谁能把电力、散热和机柜效率做成优势

谁能构建最强的软件生态和开发者平台

所以，大模型时代真正的底层战争，不只是芯片战争，而是系统战争、平台战争、基础设施战争。从这个角度看，GPU只是起点，AI工厂才是终局。