芯魂：Transformer八子、自注意力机制与大算力时代的开端

2017年6月。

夏威夷。计算机视觉与模式识别会议的余温还没散。

全球AI圈沉浸在深度残差网络和对抗生成网络带来的冲击里。

所有人都在讨论这个、那个论文有多牛。

但在arXiv上，悄然出现了一篇预印本。

标题叫《Attention Is All You Need》。

没人注意到它。

至少当时没人注意到。

后来发生的事情，所有人都知道了。

这篇只有八页的论文，改写了整个文明的演进路径。

它催生了ChatGPT、Claude、Midjourney。它把英伟达推上了数万亿美元市值的神坛。它迫使谷歌、亚马逊、特斯拉，甚至整个主权国家，重构自己的半导体战略。

但这一切的起点，不是什么顶级实验室的顶层设计。

而是一个谷歌研究员在白板上画的一堆草图。

你要理解这有多荒诞，先看看当时的AI世界长什么样。

2017年之前，深度学习的王是循环神经网络，简称RNN。

RNN的设计哲学很符合人类直觉。语言是流动的，信息是序列的。理解一句话必须从左到右逐字进行。先读第一个字，再读第二个字，一个字一个字来。

听起来特别合理对吧。

但RNN有个致命的问题。

你要处理第1000个单词的时候，模型必须先完成前面999个单词的计算。这是一种纯粹的"串行"计算方式。它无法利用GPU的大规模并行能力。等于你花几百万买的GPU，只用了10%的算力，剩下90%都在那儿干耗着。

更糟的是长程记忆的丧失。

哪怕用了LSTM这种改进版，在几千个词的长文档里，模型还是会"遗忘"。它很难把文档开头和结尾的语义关系联系起来。

你让一个RNN读完《百年孤独》然后问你开头和结尾的关系，它大概率只会给你一个茫然的眼神。

然后这八个人站出来说。

注意力就是一切。

他们提出了一个极其傲慢且激进的假设。

剔除所有循环层。剔除所有卷积层。只依靠一种叫"缩放点积注意力"的机制，就能捕捉全局依赖。

也就是说，模型可以同时看到整段文字里的每一个词。它不需要一个字一个字地读。它可以一眼扫完整个句子，然后理解每个词之间的关系。

这个改动，释放了被禁锢在硅片里的计算怪兽。AI的训练速度实现了量级的跃迁。

让我给你讲一个细节。

这八个人里有一个叫艾登·戈麦斯的家伙，当时才20岁，大二，还在多伦多通过远程协作。

他干了什么？

他完成了数百次超参数搜索实验。就是那种最枯燥、最无聊、最没有人想干的活儿。调参数，跑实验，看结果，再调。一遍又一遍。

20岁的大二学生。

你敢信？？？

这篇后来改变了世界的论文，最核心的实验验证工作，是一个还在上大学的孩子在宿舍里跑出来的。

那八个人到底是谁？

第一个是阿西什·瓦斯瓦尼。论文的第一作者，全局设计者。他在团队初期协调各方利益，确保项目持续推进。你可以把他理解为那个把所有零散的idea串起来的人。

然后是诺姆·沙泽尔。谷歌的功勋元老，曾参与构建早期的拼写检查系统。他对提升模型规模和效率有着近乎本能的直觉。他后来发明的"多头注意力"，成了整个架构的灵魂。

再说说雅各布·臼克雷特。灵魂人物，自注意力理论的推动者。他骑着园区自行车在各办公室穿梭，在白板上勾勒架构草图。他是最早提出"既然注意力可以作为RNN的补充，为什么不能让它独挑大梁"的人。

尼基·帕尔玛。实验专家。她设计并评估了无数种模型变体，证明了架构的稳健性。她是那个把所有疯狂的想法变成可运行代码的人。

卢卡什·凯泽。系统架构师，TensorFlow深度用户。他把抽象的数学变成了可以在数千颗GPU上跑通的工程代码。

卢卡什·凯泽的队友里还有莉昂·琼斯。他干了件后来被所有人铭记的事。

他想出了这篇论文的标题。

《Attention Is All You Need》。

你想想看一个学术论文的标题，本来应该叫什么东西？"基于自注意力的序列建模框架"。那种无聊到死的学术命名。

但他写的是"Attention Is All You Need"。

简洁、傲慢、有记忆点。

后来这篇论文的引用量超过了20万次。

这个标题被全球AI从业者念了无数次。

以及派生出各种《XXX Is All You Need》

还有一个伊利亚·波洛舒金。

早期协同设计者，共同起草了最初的设计文档。他专注于模型的基础数学逻辑，早期贡献了大量代码。

八个人。

没有大佬坐镇。

没有预算。

没有管理层的支持。

就是一群人在白板前面画了一会儿，然后觉得"这玩意儿可能行"。

然后故事就变得有意思了。

因为谷歌没有接住它。

坦率的讲，这不是谷歌的错。

2017年后的谷歌正处于搜索广告业务的巅峰。它的核心业务太成功了，成功到所有的资源和精力都围绕着搜索广告转。

一个改变世界的架构摆在你面前，但你的KPI是"让搜索广告多赚1%"。

你当然会选择后者。

谷歌内部的官僚体系和对品牌风险的极度规避，让这项技术被束之高阁。

或者说，被限制在了一个极小的范围内，只用来改进搜索排名之类的细枝末节。

艾登·戈麦斯和尼基·帕尔玛都表达过相似的挫败感。

在谷歌，想要把一个颠覆性的想法变成产品，需要经过无数层的审批和合规审查。

然后他们走了。

说实话我也不确定这算不算"背叛"。毕竟人家谷歌给了他们八年的薪水、顶级的资源、最聪明的同事，然后他们做出了改变世界的东西。谷歌已经做得够多了。

但如果你站在一个刚做完颠覆性创新的年轻人的角度想想看。

你掏出了改变世界的武器。

然后你的公司说，"放在抽屉里吧，这个先不急。"

你会有什么感觉？

这个故事有一个极为经典的历史前缀。

1957年。肖克利半导体。

威廉·肖克利发明了晶体管。但这个人偏执、控制欲极强，对硅基技术的理解其实远不及他的员工。

于是诺伊斯、摩尔等八位天才出走。

他们离开了肖克利，在加州桑尼维尔和帕洛阿尔托播下了硅谷的种子。

后来这些人创办了仙童半导体。仙童半导体又走出了更多天才，创办了英特尔、AMD。乔布斯也从仙童挖了很多人去创立苹果。

"仙童八叛徒"。

今天硅谷的所有传奇，都始于这八个受不了老板的年轻人。

而Transformer八子，正在重演同样的故事。

他们离开谷歌之后，每个人都在做最炸的事情。

诺姆·沙泽尔创立了Character.AI，让用户可以和苏格拉底或马斯克的人工智能对话。他离开谷歌就是因为坚信对话式AI将取代搜索。

艾登·戈麦斯回到多伦多创立了Cohere，为全球企业提供可定制的、隐私保护的AI大脑。

雅各布·臼克雷特做了最惊人的跨界。他认为蛋白质和RNA序列也是一种"语言"，那Transformer就能用来设计药物。他的公司Inceptive正在通过AI设计预防下一场大流行的核酸疫苗。

阿西什·瓦斯瓦尼和尼基·帕尔玛联手创立了Essential AI，打造能够像人类一样操作所有复杂软件的"行动模型"。

莉昂·琼斯去了日本，创立了Sakana AI，成为日本AI独角兽，探索小参数量的高效模型。

伊利亚·波洛舒金参与了NEAR Protocol，构建去中心化计算网络。

说真的，想想就觉得兴奋。

一个公司做不出的东西，八个人散开之后全部做出来了。而且比在谷歌的时候做得好得多。

有一说一，Transformer到底凭什么这么强？

如果说RNN是AI的"顺序阅读器"，那Transformer的核心理念就只有一个词。

看全部。

它核心用了一种叫"自注意力"的机制。

说人话就是，当模型在处理"bank"这个词的时候，它会自动去看上下文里出现的是"river"还是"money"。如果是"river"，它就理解成河岸。如果是"money"，它就理解成银行。

它不是死记硬背。它是动态地调整自己的理解重心。

具体怎么做到呢？

每一个输入的词会被转化为三个向量。

查询。就像你在YouTube搜索框输入的一行文字。代表"我想找什么"。

键。就像YouTube上千万个视频的标题和标签。代表"我有这些信息"。

值。就像视频的实际内容。代表"这些是我的具体信息"。

模型计算每个Q和所有K之间的相似度。

相似度越高，说明这个词跟当前词的关系越紧密。

然后把这种相似度转化为权重，对对应的V进行加权求和。

就这么简单。

数学公式极其简洁。

一个公式，搞定了翻译、写作、图像理解、代码生成。

但Transformer最骚的地方还不止于此。

它用了一种叫"多头注意力"的机制。

如果说单头注意力是模型的一只眼睛，多头注意力就是给模型装了一双复眼。每个"头"可以使用不同的线性映射，从不同的子空间去捕捉信息。

一个头可能专注于语法上的主谓关系。另一个头可能专注于语义上的代词指代。再一个头可能关注时空关系。

并行处理不同视角的信息。

这种能力让Transformer在理解复杂句式时，表现出了几乎像人一样的智慧。

但这也带来了一个问题。

因为抛弃了RNN的顺序处理，模型无法区分词序。在它看来，"狗咬人"和"人咬狗"是完全等价的。

这显然不行。

所以团队引入了一种叫"位置编码"的东西。

他们用正弦和余弦函数的不同频率，把位置信息编码成向量，直接加到词嵌入上。

就这么一个小小的技巧，让模型在享受大规模并行计算的同时，依然保留了对序列顺序的敏感性。

你想想看。一个数学函数，解决了一个计算问题。然后这个数学函数，改变了人类文明。

我有时候觉得AI的发展史有一种特别奇怪的规律。

每次都是先有算法上的突破，然后发现现有的硬件根本扛不住，然后硬件公司才开始拼命追赶。

Transformer就是这样一个拐点。

在RNN时代，GPU的流处理器经常因为等待前序计算结果而处于空闲状态。GPU在那里等着，啥也干不了。

而Transformer把计算转化成了大规模的矩阵乘法。

这正是硅片最擅长的事情。

英伟达的CEO黄仁勋是第一个反应过来的人。

2024年的GTC大会上，他亲自邀请了Transformer八子中的七位登台。

然后他送了每个人一块签名的DGX服务器面板。

上面写着"你们改变了世界"。

黄仁勋这句话不是客套。他是真的知道这意味着什么。

英伟达随后的每一代架构都在针对Transformer做特化。Ampere、Hopper、Blackwell。每一代都在解决Transformer带来的新问题。

Tensor Core的演进。通过硬件单元直接支持高维矩阵乘法。

FP8与Transformer引擎。在H100及以后的芯片中，引入了自动精度调整技术。对于误差容忍度高的计算层使用8位浮点数，对于关键层保留高精度。从而在相同功耗下将吞吐量提升了数倍。

你可以看看业界GPU/TPU/LPU是怎么随着Transformer一起进化的。

P100，2016年。论文最初使用的GPU。缺乏专用Tensor Core。性能基准设为1.0x。

V100，2017年。第一代Tensor Core。大幅提升半精度训练速度。性能提升到3.5x。

TPU v2，2017年。谷歌自己的张量处理单元。引入bfloat16精度，专为大规模Transformer集群设计。性能达到4.0x。

H100，2022年。专用Transformer引擎，支持FP8计算。性能暴增25到30倍。

TPU v4，2020年。全局光交换互联，极大减少节点间通信延迟。系统级性能提升10倍。

Groq LPU，2023年。这是另一个方向的故事。

说到Groq，这公司做的事情特别有意思。

他们提出了一个叫LPU（语言处理单元）的概念。试图从硬件层面颠覆Transformer的计算范式。

与GPU这种依靠复杂的调度器动态管理任务的架构不同，LPU采用了极其硬核的静态调度。

时钟级精确。编译器在训练或部署前，就已经精确计算好了每一比特数据在每一纳秒应该出现在芯片的哪个位置。

去缓存设计。大规模使用片上SRAM代替显存。虽然存储容量较小，但其存取速度比传统架构快了一个数量级。

这让Transformer的实时推理达到了每秒数百个Token的速度。

你敢信？

每秒几百个Token。

你知道这意味着什么。就是你问ChatGPT一个问题，它回答你的速度接近人类阅读的速度。不再是那种"正在生成中"的进度条在慢慢爬。

但Groq也不是终点。

学术界对Transformer的颠覆从未停止。基于状态空间模型的架构，比如Mamba，试图通过线性复杂度的计算来实现与Transformer相当的长文本理解能力。

这预示着算法与算力的博弈将进入下一阶段。

从"暴力计算"转向"精妙调度"。

说实话，想想就觉得兴奋。

我们才刚刚开始。

回到最开始的那八个人。

2017年夏天，谷歌园区里那几个在走廊、咖啡厅和白板前争论的年轻人。

他们有没有预见到自己正在拉开人类文明新篇章的序幕？

我猜没有。

他们只是想看看"注意力能不能独挑大梁"。

一个很简单的、很纯粹的技术好奇心。

然后世界就被改变了。

我现在每次看到数据中心的灯在闪，就会想起那八个人。

每一颗在数据中心疯狂跳动的硅片，都在以每秒万亿次的频率，向那八个在白板前面画草图的年轻人致敬。

他们的故事证明了一件事。

改变世界不需要很多钱。不需要很多资源。不需要很多头衔。

只需要一点点注意力。

和一群敢于挑战现状的"学术叛徒"。

芯魂：Transformer八子、自注意力机制与大算力时代的开端

相关推荐