芯片难题之后，华为能否靠AI大模型破局？

关于人工智能，有人问过这么一个问题：

现在人工智能已经这么厉害了，人类是不是可以躺平了？

人工智能真正吸引了全世界的目光，是几年前的那场著名的棋局。下棋一直是人类智慧的精华，而围棋更是精华里的巅峰，皇冠上的明珠。在我们的印象里，围棋高手通常都是天赋异禀，智商拔群的人。从当年的棋圣聂卫平，再到现在最有影响力的围棋天才少年、17岁排名世界第一、从四段直升九段的柯洁，他们都是人们眼中的“最强大脑”。

2017年，谷歌的阿尔法狗和柯洁对局了三盘。结果大家都知道了，3：0，人工智能三，柯洁零。而柯洁泪洒赛场的情景也触动了很多人。

大家都在问：人工智能，真的已经这么厉害了吗？

人工智能，到底厉害在哪？

人工智能的厉害之处，就是能把一个具体的事情做到极致，做的又快又好。除了下棋之外，还有人脸识别、车牌号识别、做核酸的时候身份证识别等等。事实上，AI最厉害的地方并不是比人做的更好，而是能大规模复制。比如我们能在每个路口都放好几个摄像头，自动监测哪个车违章了、并且立刻识别车牌号。但我们没办法在每个路口都放好几个警察叔叔去做同样的事情。

但是，这些AI只擅长做一件事情，比如下棋或者识别车牌。如果让识别车牌的AI去下棋是很难的，但让柯洁去协管交通却并不难。这就是专用智能和通用智能的最大区别。

传统的人工智能都是针对某个应用，用很多数据训练出一个神经网络，然后把这个网络放到实际的应用里去工作。比如打败柯洁的人工智能AlphaGo，就是通过不断学习各种棋局、24小时不间断自己和自己下成千上万局棋，把自己练成了平平无奇的下棋机器。

但如果让它处理一个和下棋无关的应用，问题就来了。它从来没见过这个东西，自然就无从下手看。打个不那么恰当的比喻，人工智能里的神经网络，其实可以看成AI的脑容量。为了处理各种不同的应用、提高人工智能的通用性，就必须提升脑容量。

这个时候，就出现了「大模型」。

大模型，是AI进化的新阶段吗

顾名思义，大模型最主要的特点就是「大」，它指的是网络的参数非常多、规模非常大。经典的深度学习模型ResNet大概有2300万个参数，而大模型的开山之作GPT-3的参数量达到了1750亿，比传统的模型高出了近1000倍。

靠着这么大的规模，大模型的脑容量扩大了，能学习和处理的东西自然就多了。2021年八月，著名AI学者、斯坦福的李飞飞教授和100多位学者联合发表了一篇研究报告，深度分析了大模型面对的机遇和挑战。他们把大模型叫做「Foundation Models」，中文直译过来就是基础模型，从这个名字也可以看到大模型带来的基础性意义。

（报告全文已上传至知识星球 – 老石谈芯进阶版，请进入星球查看）

这些学者也认为，大模型会在人工智能领域带来一波设计范式的转变，最重要的就是引领专用AI到通用AI的变化。

大模型之所以能做到通用AI，是因为它可以做大规模的训练，并且把各种领域的知识都学习整合在一起。在应用的时候只需要做一些微调，就可以用在不同的任务里，这个是小模型做不到的。

大模型另外一个好处，就是对输入数据的要求没那么高了，它通过小样本学习方法，可以从没有标注的数据里学习，并且通过少量有标注的数据不断进行修正。这相当于我们人类在学习知识的时候，往往会需要组成一个知识体系。这样在学习新知识的时候，就可以在这个体系里不断扩展，而不需要从头再来。

其实从2020年开始，全球各大公司和研究机构就已经开始了大模型的军备竞赛。除了前面说的GPT-3，2021年谷歌发布了万亿级模型Switch Transformer，微软和英伟达也推出了包含5300亿参数的自然语言生成模型。

当然了，在大模型这个领域，中国企业也一直保持着国际的先进水平，比如华为和鹏城实验室、中科院自动化所、武汉大学等发布了中文语言、多模态、遥感等系列大模型，它们的参数量都达到了千亿级别。此外阿里、浪潮也都相继推出了自己的大模型。

AI大模型，救世主还是乌托邦？

但是，我们在看任何事情的时候都不能只看一面，前面只说了AI大模型的好处，没说它的问题和不足。其中最大的问题，就是大模型的开发和部署的过程非常难。具体一点说，大模型都是拿钱、人、时间堆出来的。

就拿GPT-3举例，介绍它的论文长达72页、作者31人。训练这个大模型动用了超级计算机，训练成本超过1200万美元。这样的开发难度，的确能大力出奇迹，但也是普通人、甚至是普通公司和高校都做不到的。

（论文全文已上传至知识星球 – 老石谈芯进阶版，请进入星球查看）

正是因为训练的成本非常高，所以一旦出现问题要去修正，就非常难了。

在大模型的部署和应用里，也同样存在着问题。

前面提到的李飞飞和其他AI学者撰写的报告里，也提到了大模型的两个问题，分别是「同质化」和「涌现」的风险。同质化指的是目前的大模型的基础原理其实都比较类似，一旦基础模型出现问题，都会被继承到大模型和下游应用里。涌现指的是某个行为是隐性归纳的，而不是专门训练出来的。这样一旦问题出现，我们既不理解它是怎么来的，也不知道它是怎么没的，总之就是难以预料和掌握。

所以可以看到，从规划、训练，到部署一个大模型，仍然需要克服诸多困难。所以这也就成了整个行业当前研究的重点。

这个其实和人工智能刚刚兴起的时候很像，当时人们要自己写深度学习的代码，一层一层地搭神经网络，然后再把这些模型部署到GPU或者其他硬件上运行。这个过程也是同样费时费力的，而且全行业估计也没几个人能做。但是后来出现了Tensorflow这样的深度学习框架，就把这个过程大大简化了，也大大降低了行业的门槛，让人工智能迎来了一波大爆发。

这就像厨师做饭不用从种地开始、工人干货不用从炼钢开始一样，各种AI框架、编程模型的产生，极大的减少了重复性的工作，让大家不用从头再造轮子了。AI专家只需要专注于调参（误）算法的创新就可以了。

同样的，大模型的未来发展也大概率会遵循这样的规律。这几年，人工智能已经开始从「大炼模型」到「炼大模型」转变，但大模型似乎都只有顶级大厂、高校和科研机构才能玩得起，动辄投入几十上百人、烧个几百上千万美元去炼大模型，普通人可玩不起。

成本是一方面，大模型的规划、开发、部署各个环节，每个都是天坑、都是吞金兽。本来大模型要解决的问题，就是要避免人们从头踩坑。怎么反过头来坑挖到自己身上了呢？

所以，为了让大模型更好的进行规划、开发和产业化落地，就需要一个新的框架和流程，去帮助大家解决大模型落地遇到的各种问题。

这也正是华为提出的「大模型全流程使能体系」要做的事情。

AI大模型，如何落地？

说白了，华为提出的这个「体系」就是一个大模型的框架，它整个分成了规划、开发和部署三大块，每块的核心思想都很清晰，就是要降低大模型的开发和应用门槛。

比如在规划阶段，这里面的核心是昇腾大模型沙盘。行军打仗的时候主帅会用沙盘进行推演，自己有哪些部队，每个部队的战力如何、特长如何，在沙盘里都一目了然。在这个大模型沙盘里，把军队换成了不同领域的大模型，比如针对自言语言处理的鹏程.盘古、针对计算机视觉的盘古CV、针对多模态的紫东.太初等等。研究者能在沙盘里进行推演，根据自己的应用和已有的大模型开展研究。

在沙盘推演完毕，就进入实战，也就是关键的开发阶段。在这个阶段，华为提供了大模型开发使能平台，包含了数据准备、基础模型开发、行业应用适配、模型推理部署的全流程工具。其中最核心的部分，是开发、微调、部署三个套件。如果要再挑出来一个皇冠上的明珠，那就是昇思MindSpore。它不仅有编程API这样的传统功能，还可以自动实现6个维度的并行运算，开发者只需要一行代码就能实现模型自动切分和自动化运算。

此外，它还能进行多级存储优化，让10万亿参数的模型跑在512张板卡上，提升开发效率、降低了成本。当训练意外中断的时候，会触发软硬件保护，让整个模型在几分钟之内恢复，避免重新来过的风险。

针对大模型的微调，华为也有MindX的大模型微调套件，实现一键式微调和小样本学习的低参数调优。也就是说，可以通过预置的任务模板，根据目标应用自动进行参数调节。

开发完毕，就可以部署了。在这个阶段，华为提供了MindStudio部署套件，可以进一步优化模型、根据应用场景进行分布式部署和推理，同时使用量化、剪枝、蒸馏等技术，对模型进行进一步压缩，可以实现10倍以上的压缩率，保障部署模型的安全。

其实不管是什么样的大模型、不管是什么样的开发框架，最终还是要用起来。大模型的意义，就是从以前的作坊式的AI开发，转向工厂化的大规模应用。不过为了真正实现规模化产业部署和推广，还需要产学研的通力合作，并且共同建立起一个发展生态。在这个领域，华为也支持伙伴成立了多个产业联盟，比如基于紫东.太初大模型的多模态人工智能产业联盟，以及即将成立的AI生物医药产业联盟等等。

不管是什么行业，单打独斗的日子早就一去不复返了，开放合作才是未来。

有布局、有实现、有落地，然后搜集反馈，帮助更好的布局和实现，从而形成一个大模型的生态闭环。再加上华为昇腾的AI算力基础设施、昇思MindSpore开源社区、以及各种创新使能计划，这些才是华为构建大模型生态的终极布局。

结语

回到一开始的问题，人工智能现在已经这么厉害了，人类是不是可以躺平了？悲观的人认为，人工智能会取代很多人类的工作，甚至也剥夺了我们下棋、打游戏的快乐和意义，因为就算是天才也赢不了人工智能，哪怕是一局。

但是，「赢」或许只能带来很少的乐趣，更大的乐趣是创造新的技术、新的工具，并由此给人类带来更多新的机会。柯洁被AI横扫后也曾反思，最后也想以他的话结束本文：

「人工智能战胜人类棋手也是人类科技的进步，人类的新智慧以某种形式战胜了古老智慧，这其实是人类的又一次自我超越」。

（注：本文不代表老石任职单位的观点。）

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
BTA16-800BRG	1	STMicroelectronics	16A standard and Snubberless™ Triacs	ECAD模型下载ECAD模型	$1.35	查看
GCM31CR71C106KA64L	1	Murata Manufacturing Co Ltd	Ceramic Capacitor, Multilayer, Ceramic, 16V, 10% +Tol, 10% -Tol, X7R, 15% TC, 10uF, Surface Mount, 1206, CHIP, ROHS COMPLIANT	ECAD模型下载ECAD模型	$0.45	查看
SVH-21T-P1.1	1	JST Manufacturing	Wire Terminal, 0.83mm2, ROHS COMPLIANT	ECAD模型下载ECAD模型	$0.06	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

BTA16-800BRG

STMicroelectronics

16A standard and Snubberless™ Triacs