加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • Sora、Gemini大秀超能力,英伟达版GPT深入PC本地
    • 大模型加速演进,算力需求倍增
    • 深挖异构“富矿”,持续优化算力效率
    • 离线大模型,有望触达AIGC毛细血管
    • 重视中文数据开源生态建设
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

海外灭霸打响指,中国AI可以做好这三件事!

02/23 07:15
2598
阅读需 17 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

近来,全球AI频放大招。OpenAI和谷歌展示了大模型没有上限的潜力,英伟达则展示了模型应用可以下探的边界。

这其实也是大模型未来的两大方向,一种是在线的大模型,能力顶级,成为一部分专业人士不可或缺的工具;另一种则是本地AI算力的轻型化和垂直化,离线利用本地数据训练垂直模型,构建本地的AI知识库。

对于中国的AI市场来说,哪种更香?如何更贴近现实?

Sora、Gemini大秀超能力,英伟达版GPT深入PC本地

OpenAI Sora横空出世,被业界认为“可以付诸商业或工业化生产的水平,是视频创作领域里程碑式的产品”。CEO Altman透露,OpenAI已经在和安全测试机构、电影和视频创作者合作,以改进产品。这也进一步印证其商业化步伐在加快,届时,“商业可用”又将掀起一场疾风骤雨。

谷歌也同步宣布了Gemini1.5大模型,最大的亮点是百万级别的上下文长度。Gemini 1.0 Pro模型能够处理3.2 万个token(约2万个单词),相比之下,Gemini 1.5 Pro 每次可以处理100万个token,结合原生多模态能力,可以一次性处理大量信息,例如1小时的视频、11小时的音频、超过3 万行(或70万个单词)的代码。Gemini1.5具备更强的推理能力、更强的多模态理解能力和编程能力,被认为已经有了写高质量深度研究报告和论文的潜力。

除了这两个大模型,英伟达近期也推出了自家的GPT——Chat with RTX,用户可在搭载 NVIDIA GeForce RTX 30系列或更高版本的GPU(至少8GB显存)进行本地部署,使用 Mistral、 Llama 2 等开源模型,帮助用户阅读文档/视频并通过检索增强生成(RAG)总结文件内容,全程由本地RTX进行推理。与依赖云端环境的LLM服务不同,Chat with RTX让用户能够在 PC桌面端处理敏感资料,无需分享给第三方或是连接到网络,这是本地AI助手的一小步,也是边缘推理的一大步。

大模型加速演进,算力需求倍增

以当红的Sora为例,由于OpenAI透露的信息并不多,因此技术细节方面的依据主要是业界的一些推算。目前多数都认为它与传统大语言模型(LLM) Transformer在架构训练时的算力需求,几乎呈几何倍数递增。

作为一款划时代的文生视频大模型,Sora与Transformer模型本质上的不同在于训练数据分别是patch与token,分别代表图片与文字。图像的输入数据不是一个一个字符,而是一个一个像素。比如GPT-4被训练以处理一串token,并预测出下一个token;而Sora不是预测序列中的下一个文本,是预测序列中的下一个“patch”。显然,图片涉及的时空间数据相较于语言文字呈现的数据维度有着几何维度的差异。

由谷歌支持的人工智能初创公司 Runway去年发布了文生视频模型 Gen-2,这是首批商业化的文本转视频模型之一。数据显示,GEN-2模型是由2.4亿张图片和640万个视频片段组成的内部数据集进行训练的。

判断Sora架构的参数只会比GEN-2更大,目前有券商测算,假定Sora与Runway GEN-2所训练的数据量相同,以每张图片分别为1920 x 1080分辨率,每个视频分别为30秒30FPS,那么patch大小为[(2.4 x 108)+ (6.4 x 107 x 30 x 30)] x 1920 x 1080 x3= 3.73 x 1016,再将Patch大小转换成token大小为(3.73 x 1016) ÷ (16 x 16 x 3)= 4.86 x 1013,这是指数级别的差距。再对应到大语言模型与Sora架构训练时的算力需求,也几乎是几何倍数的递增。

原有的AI算力焦虑尚且无解,而Sora进一步抬升了需求天花板,也难怪Altman在酝酿7万亿美元的“造芯大计”,这似乎就是个无底洞。那么,在更多的GPU或加速硬件能满足需求前,特别是对于中国市场来说,还可以关注哪些方向?

深挖异构“富矿”,持续优化算力效率

过去一年间,我们目睹了“百模大战”,而算力基础设施的壁垒始终比较坚挺,这其中既包括可用的芯片,也包括稳定的基础设施软件

大模型参数规模给训练系统不断带来挑战,主要包括:内存瓶颈、运行效率、较高的模型开发成本等,迫使业界一方面寻求新的解决方式,另一方面继续优化已有的解决方案和基础设施。既然算力迟早会跟不上模型的扩展速度,那是不是首先要充分挖掘已有资源,让它最大化发挥效能?

这其中有一个非常关键的方向就是异构算力平台的搭建、调度和管理,比如CPU、GPU、FPGA等异构算力节点的协同,来支持上层的智算应用。

事实上,跨异构计算节点支撑统一智算应用的调度,目前依然面临技术挑战。由于不同 GPU 等异构硬件在支撑智算应用时,依赖不同的技术栈,包括底层的CUDA、编译器、前端AI框架等,例如运行在英伟达GPU上的应用并不能调度到国产化的GPU上无缝运行,也无法将一个运行在GPU上的程序不经过适配改动直接运行在FPGA上。

技术栈的问题导致一个智算应用目前仍然很难在不同的异构算力节点上无缝迁移,或者同步运行,往往需要对应用本身进行适配和改造,才能具备在不同异构算力节点上进行任务调度的前提。

另一方面,业界当前的另一研究热点是节点内混合异构计算系统内异构算力的协同。主流的混合异构系统包括:CPU+GPU,解决深度学习模型训练在CPU上耗时长的问题,提升深度学习模型的训练效率;CPU+GPU+DPU,DPU的核心是将任务从 CPU“卸载”,使得更多CPU核心可用于处理应用程序,从而提高数据中心的效率;此外还有CPU+TPU架构等混合异构系统等。

由于不同应用对算力的需求不同,异构算力支撑同一应用也具有较大的性能表现差异性。只有实现异构AI算力的管理和调度,兼容适配多种智能AI硬件,实现硬件与计算要求有效对接、异构算力在节点间灵活调度、同时协同提供智算相关处理流程,将各类异构算力协同处理,才能真正发挥最大的计算效力,为多样化AI的应用场景提供高性能、高可靠的算力支 撑。

目前这个方向以中国移动、浪潮、新华三的方案比较有代表性。比如中国移动是基于移动云底座的IaaS能力,实现异构资源池化;浪潮是打造了一个统一的主流深度学习框架(Tensorflow、 Pytorch、Caffe、Mxnet、PaddlePaddle)开发训练平台以及计算资源(CPU、GPU、内存、存储)管理的平台,叫AIStation;新华三是建立了AI和HPC资源一体化管理的集群管理平台,支持异构计算资源管理、容器管理等,实现AI和HPC资源的灵活调配管理。

面向指数级增长的算力需求,中国AI业界不妨先盘盘家底,继续深挖底层问题,持续进行优化,毕竟基础设施是AI发展的先决条件,也是现实当前的一个主动选择。

离线大模型,有望触达AIGC毛细血管

对于中国本土AIGC产业的发展,这一年的讨论声不绝于耳。其中,离线大模型是一个热点方向,甚至有观点认为,中国市场更大的机会可能在于此。

世界经济论坛最近的一份报告预测,能够离线运行生成式AI模型的设备将大幅增长,其中包括个人电脑、智能手机物联网设备等。原因在于本地模型不仅更私密,与云托管模型相比,本地模型的延迟更低,成本效益更高。根据这些预测,能在本地部署、进行AI推理的大模型,才能触及广大潜在用户的“毛细血管”。

中国市场更大的机会是否在离线大模型?

从算力的角度来看,离线大模型可能更适合中国市场现状。由于大模型的训练需要巨大的算力,而中国在算力水平方面与美国还存在较大差距。发展离线大模型可以在一定程度上减轻对算力的需求,降低研发成本,使得更多的企业和机构能够参与到大模型的研发和应用中。

从数据隐私和安全性角度来看,离线大模型也更具优势。由于离线大模型不需要将数据传输到云端进行训练,因此可以更好地保护用户数据的安全和隐私,符合中国市场的需求和法规要求。

此外,在某些特定场景下,如自动驾驶智能制造等领域,需要实时处理和分析大量数据,对模型的响应速度和准确性要求极高。离线大模型可以在本地进行训练和推理,能够更好地满足这些场景的需求。

比如PC产业就已看准了AIGC带来的新契机,英特尔、高通、联想、英伟达等已经纷纷入局。从需求端来看,AI PC作为承载AI大模型的设备,能有效提高生产力,从传统PC向AI PC升级将变得十分必要。且在AI普及之后,出于隐私、成本等方面的考虑,AI本地化的重要性也愈发凸显,这就需要离线大模型发挥作用。芯片层面,需要专用的GPU、NPU、以及大容量的DRAM等执行大模型离线推理,支持实时的AI应用,

当然,除了个别场景,在线大模型也有其不可替代的优势。例如,可以通过不断从海量数据中学习来提高自身性能,具有更强的泛化能力和适应性;还可以利用云端强大的算力资源进行训练,加速模型的优化和迭代。

对于在线和离线大模型,有一个比喻很形象:在线大模型就像是大食堂的大锅饭,提供统一的口味,所能满足的量很大,不过吃饭都要涌去排队;部署在本地设备中的离线大模型,就像是个人私厨,可以自己开小灶,满足自己的口味需求,相应地也不能和大食堂比供应量。

对于中国市场来说,离线大模型和在线大模型各有优势和适用场景。具体选择哪种模型取决于具体的应用场景、数据规模、算力资源等多个因素的综合考虑。同时,也需要注意到不同模型之间的互补性,可以结合实际需求进行灵活选择和组合。

重视中文数据开源生态建设

“训练大模型需要的是知识,对知识的纯度要求很高,含量和质量要求很高,这样训练出来的大模型才越聪明。如果拿网上无聊的杠精聊天记录做训练,最后只会训练出来一个杠精”,这是360创始人周鸿祎近期谈到大模型训练时的一个观点。

他同时认为,要加大开源分享的力度,而不是各家关起门来自己闭门造车。国外AI发展非常快,一个关键是开源生态的各种论文交流,如果每个人都从零到一做研发,都要把别人走过的坑再走一遍,实际速度就会很慢。

当前,全球大模型开源已然形成三巨头局面:谷歌Gemma、Meta LLama和欧洲Mistral。

自从以OpenAI为代表的闭源模型厂商开放对外技术服务后,开源模型厂商一直在加紧发力。以Meta为例,2023年2月,发布了开源大模型LLM的第一个版本Llama,授予“可研究”用途;2023年7月,进一步发布“可商用”的Llama2版本。这其实在预示着大模型竞争已经进入白热化的态势。因为开源不仅能吸引大批开发者,更能建立生态系统,从而建立自己的技术壁垒。

虽然Llama2基本不支持中文,对中国的大模型商用生态暂时不会产生实质性变化,但中国仍需要开发培育适配于中文数据土壤的开源生态。通过开源社区的建设,可以吸纳更多的开发者及拥有定义用户的主导权,以AI开源创新平台为杠杆,带动支撑底层AI芯片智算中心及云服务等基础设施发展。

根据《2023年中国AIGC产业全景报告》,从供给侧逻辑来看,大模型开源早期由高校和机构推动,如清华大学的ChatGLM-6B、复旦大学的MOSS,陆续有头部云厂商加入,如百度的文心系列与阿里的通义系列,共同为中国AIGC开源社区的建设“增砖添瓦”,以阿里云魔塔社区、百度云飞桨社区为代表的开源社区建设成果初现,而千亿级模型暂以闭源路径开展,凭借稳定、优质效、完整工具链等产品特点定位应用市场。

从商业化路径来看,参考海外明星开源社区Hugging Face的商业模式,中国AI开源社区同样会先免费提供基础算力,为客户提供免费的社区体验、demo部署及测试,并进一步通过付费服务推送轻量级迁移的微调推理服务或深度开发的训练调优平台,提升模型产品性能,通过开源社区吸引开发者、企业客户完成更多部署应用资源的引流变现。

未来,开源和闭源的大模型有望并存和互补,闭源大模型可为B端用户和C端消费者持续提供优质的模型开发及应用服务;开源大模型则可从研究角度促进广大开发者和研究者的探索创新,从商用角度加速大模型的商业化进程与落地效果。

写在最后

OpenAI正在坚定不移地拥抱AGI信仰,不断探索AI能力的天花板。对于全球AI玩家来说,“比肩OpenAI”成为了一个目标甚至信仰。

不过,客观存在的差距意味着,中国的AIGC发展必须筑牢底层,找到适合自己的独特化路径,才能实现发展和超越。在通往AGI的道路上,目前比较公认的方向还是更大规模的模型和更多的数据,因此,大算力集群、数据的需求将会继续提升,同时找到广泛的、多样的应用场景,才能最终实现商业闭环。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F429VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FSMC, TFT

ECAD模型

下载ECAD模型
$34.08 查看
STM32H743VIT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下载ECAD模型
$20.56 查看
STM32F207ZGT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下载ECAD模型
$13.88 查看

相关推荐

电子产业图谱