加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 人工智能,到底厉害在哪?
    • 大模型,是AI进化的新阶段吗
    • AI大模型,救世主还是乌托邦?
    • AI大模型,如何落地?
    • 结语
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

芯片难题之后,华为能否靠AI大模型破局?

2022/07/29
1267
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

关于人工智能,有人问过这么一个问题:

现在人工智能已经这么厉害了,人类是不是可以躺平了?

人工智能真正吸引了全世界的目光,是几年前的那场著名的棋局。下棋一直是人类智慧的精华,而围棋更是精华里的巅峰,皇冠上的明珠。在我们的印象里,围棋高手通常都是天赋异禀,智商拔群的人。从当年的棋圣聂卫平,再到现在最有影响力的围棋天才少年、17岁排名世界第一、从四段直升九段的柯洁,他们都是人们眼中的“最强大脑”。

2017年,谷歌的阿尔法狗和柯洁对局了三盘。结果大家都知道了,3:0,人工智能三,柯洁零。而柯洁泪洒赛场的情景也触动了很多人。

大家都在问:人工智能,真的已经这么厉害了吗?

人工智能,到底厉害在哪?

人工智能的厉害之处,就是能把一个具体的事情做到极致,做的又快又好。除了下棋之外,还有人脸识别、车牌号识别、做核酸的时候身份证识别等等。事实上,AI最厉害的地方并不是比人做的更好,而是能大规模复制。比如我们能在每个路口都放好几个摄像头,自动监测哪个车违章了、并且立刻识别车牌号。但我们没办法在每个路口都放好几个警察叔叔去做同样的事情。

但是,这些AI只擅长做一件事情,比如下棋或者识别车牌。如果让识别车牌的AI去下棋是很难的,但让柯洁去协管交通却并不难。这就是专用智能和通用智能的最大区别。

传统的人工智能都是针对某个应用,用很多数据训练出一个神经网络,然后把这个网络放到实际的应用里去工作。比如打败柯洁的人工智能AlphaGo,就是通过不断学习各种棋局、24小时不间断自己和自己下成千上万局棋,把自己练成了平平无奇的下棋机器。

但如果让它处理一个和下棋无关的应用,问题就来了。它从来没见过这个东西,自然就无从下手看。打个不那么恰当的比喻,人工智能里的神经网络,其实可以看成AI的脑容量。为了处理各种不同的应用、提高人工智能的通用性,就必须提升脑容量。

这个时候,就出现了「大模型」。

大模型,是AI进化的新阶段吗

顾名思义,大模型最主要的特点就是「大」,它指的是网络的参数非常多、规模非常大。经典的深度学习模型ResNet大概有2300万个参数,而大模型的开山之作GPT-3的参数量达到了1750亿,比传统的模型高出了近1000倍。

靠着这么大的规模,大模型的脑容量扩大了,能学习和处理的东西自然就多了。2021年八月,著名AI学者、斯坦福的李飞飞教授和100多位学者联合发表了一篇研究报告,深度分析了大模型面对的机遇和挑战。他们把大模型叫做「Foundation Models」,中文直译过来就是基础模型,从这个名字也可以看到大模型带来的基础性意义。

(报告全文已上传至知识星球 – 老石谈芯进阶版,请进入星球查看)

这些学者也认为,大模型会在人工智能领域带来一波设计范式的转变,最重要的就是引领专用AI到通用AI的变化。

大模型之所以能做到通用AI,是因为它可以做大规模的训练,并且把各种领域的知识都学习整合在一起。在应用的时候只需要做一些微调,就可以用在不同的任务里,这个是小模型做不到的。

大模型另外一个好处,就是对输入数据的要求没那么高了,它通过小样本学习方法,可以从没有标注的数据里学习,并且通过少量有标注的数据不断进行修正。这相当于我们人类在学习知识的时候,往往会需要组成一个知识体系。这样在学习新知识的时候,就可以在这个体系里不断扩展,而不需要从头再来。

其实从2020年开始,全球各大公司和研究机构就已经开始了大模型的军备竞赛。除了前面说的GPT-3,2021年谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿参数的自然语言生成模型。

当然了,在大模型这个领域,中国企业也一直保持着国际的先进水平,比如华为和鹏城实验室、中科院自动化所、武汉大学等发布了中文语言、多模态、遥感等系列大模型,它们的参数量都达到了千亿级别。此外阿里、浪潮也都相继推出了自己的大模型。

AI大模型,救世主还是乌托邦?

但是,我们在看任何事情的时候都不能只看一面,前面只说了AI大模型的好处,没说它的问题和不足。其中最大的问题,就是大模型的开发和部署的过程非常难。具体一点说,大模型都是拿钱、人、时间堆出来的。

就拿GPT-3举例,介绍它的论文长达72页、作者31人。训练这个大模型动用了超级计算机,训练成本超过1200万美元。这样的开发难度,的确能大力出奇迹,但也是普通人、甚至是普通公司和高校都做不到的。

(论文全文已上传至知识星球 – 老石谈芯进阶版,请进入星球查看)

正是因为训练的成本非常高,所以一旦出现问题要去修正,就非常难了。

在大模型的部署和应用里,也同样存在着问题。

前面提到的李飞飞和其他AI学者撰写的报告里,也提到了大模型的两个问题,分别是「同质化」和「涌现」的风险。同质化指的是目前的大模型的基础原理其实都比较类似,一旦基础模型出现问题,都会被继承到大模型和下游应用里。涌现指的是某个行为是隐性归纳的,而不是专门训练出来的。这样一旦问题出现,我们既不理解它是怎么来的,也不知道它是怎么没的,总之就是难以预料和掌握。

所以可以看到,从规划、训练,到部署一个大模型,仍然需要克服诸多困难。所以这也就成了整个行业当前研究的重点。

这个其实和人工智能刚刚兴起的时候很像,当时人们要自己写深度学习的代码,一层一层地搭神经网络,然后再把这些模型部署到GPU或者其他硬件上运行。这个过程也是同样费时费力的,而且全行业估计也没几个人能做。但是后来出现了Tensorflow这样的深度学习框架,就把这个过程大大简化了,也大大降低了行业的门槛,让人工智能迎来了一波大爆发。

这就像厨师做饭不用从种地开始、工人干货不用从炼钢开始一样,各种AI框架、编程模型的产生,极大的减少了重复性的工作,让大家不用从头再造轮子了。AI专家只需要专注于调参(误)算法的创新就可以了。

同样的,大模型的未来发展也大概率会遵循这样的规律。这几年,人工智能已经开始从「大炼模型」到「炼大模型」转变,但大模型似乎都只有顶级大厂、高校和科研机构才能玩得起,动辄投入几十上百人、烧个几百上千万美元去炼大模型,普通人可玩不起。

成本是一方面,大模型的规划、开发、部署各个环节,每个都是天坑、都是吞金兽。本来大模型要解决的问题,就是要避免人们从头踩坑。怎么反过头来坑挖到自己身上了呢?

所以,为了让大模型更好的进行规划、开发和产业化落地,就需要一个新的框架和流程,去帮助大家解决大模型落地遇到的各种问题。

这也正是华为提出的「大模型全流程使能体系」要做的事情。

AI大模型,如何落地?

说白了,华为提出的这个「体系」就是一个大模型的框架,它整个分成了规划、开发和部署三大块,每块的核心思想都很清晰,就是要降低大模型的开发和应用门槛。

比如在规划阶段,这里面的核心是昇腾大模型沙盘。行军打仗的时候主帅会用沙盘进行推演,自己有哪些部队,每个部队的战力如何、特长如何,在沙盘里都一目了然。在这个大模型沙盘里,把军队换成了不同领域的大模型,比如针对自言语言处理的鹏程.盘古、针对计算机视觉的盘古CV、针对多模态的紫东.太初等等。研究者能在沙盘里进行推演,根据自己的应用和已有的大模型开展研究。

在沙盘推演完毕,就进入实战,也就是关键的开发阶段。在这个阶段,华为提供了大模型开发使能平台,包含了数据准备、基础模型开发、行业应用适配、模型推理部署的全流程工具。其中最核心的部分,是开发、微调、部署三个套件。如果要再挑出来一个皇冠上的明珠,那就是昇思MindSpore。它不仅有编程API这样的传统功能,还可以自动实现6个维度的并行运算,开发者只需要一行代码就能实现模型自动切分和自动化运算。

此外,它还能进行多级存储优化,让10万亿参数的模型跑在512张板卡上,提升开发效率、降低了成本。当训练意外中断的时候,会触发软硬件保护,让整个模型在几分钟之内恢复,避免重新来过的风险。

针对大模型的微调,华为也有MindX的大模型微调套件,实现一键式微调和小样本学习的低参数调优。也就是说,可以通过预置的任务模板,根据目标应用自动进行参数调节。

开发完毕,就可以部署了。在这个阶段,华为提供了MindStudio部署套件,可以进一步优化模型、根据应用场景进行分布式部署和推理,同时使用量化、剪枝、蒸馏等技术,对模型进行进一步压缩,可以实现10倍以上的压缩率,保障部署模型的安全。

其实不管是什么样的大模型、不管是什么样的开发框架,最终还是要用起来。大模型的意义,就是从以前的作坊式的AI开发,转向工厂化的大规模应用。不过为了真正实现规模化产业部署和推广,还需要产学研的通力合作,并且共同建立起一个发展生态。在这个领域,华为也支持伙伴成立了多个产业联盟,比如基于紫东.太初大模型的多模态人工智能产业联盟,以及即将成立的AI生物医药产业联盟等等。

不管是什么行业,单打独斗的日子早就一去不复返了,开放合作才是未来。

有布局、有实现、有落地,然后搜集反馈,帮助更好的布局和实现,从而形成一个大模型的生态闭环。再加上华为昇腾的AI算力基础设施、昇思MindSpore开源社区、以及各种创新使能计划,这些才是华为构建大模型生态的终极布局。

结语

回到一开始的问题,人工智能现在已经这么厉害了,人类是不是可以躺平了?悲观的人认为,人工智能会取代很多人类的工作,甚至也剥夺了我们下棋、打游戏的快乐和意义,因为就算是天才也赢不了人工智能,哪怕是一局。

但是,「赢」或许只能带来很少的乐趣,更大的乐趣是创造新的技术、新的工具,并由此给人类带来更多新的机会。柯洁被AI横扫后也曾反思,最后也想以他的话结束本文:

「人工智能战胜人类棋手也是人类科技的进步,人类的新智慧以某种形式战胜了古老智慧,这其实是人类的又一次自我超越」。

(注:本文不代表老石任职单位的观点。)

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
BTA16-800BRG 1 STMicroelectronics 16A standard and Snubberless™ Triacs

ECAD模型

下载ECAD模型
$1.35 查看
GCM31CR71C106KA64L 1 Murata Manufacturing Co Ltd Ceramic Capacitor, Multilayer, Ceramic, 16V, 10% +Tol, 10% -Tol, X7R, 15% TC, 10uF, Surface Mount, 1206, CHIP, ROHS COMPLIANT

ECAD模型

下载ECAD模型
$0.45 查看
SVH-21T-P1.1 1 JST Manufacturing Wire Terminal, 0.83mm2, ROHS COMPLIANT

ECAD模型

下载ECAD模型
$0.06 查看
华为

华为

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。目前华为约有19.7万员工,业务遍及170多个国家和地区,服务全球30多亿人口。华为致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利,成为智能世界的前提和基础;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、出行、办公、影音娱乐、运动健康等全场景获得极致的个性化智慧体验。收起

查看更多

相关推荐

电子产业图谱

微信公众号“老石谈芯”主理人,博士毕业于伦敦帝国理工大学电子工程系,现任某知名半导体公司高级FPGA研发工程师,从事基于FPGA的数据中心网络加速、网络功能虚拟化、高速有线网络通信等领域的研发和创新工作。曾经针对FPGA、高性能与可重构计算等技术在学术界顶级会议和期刊上发表过多篇研究论文。