• 正文
  • 相关推荐
申请入驻 产业图谱

谁在推动大模型落地?

原创
06/18 16:30
780
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

近年来,半导体产业经历周期性调整,2023 年产业收入同比下滑 11%,降jknok至 5300 亿美元,但2024 年实现了约 20% 的增长。国际半导体产业协会 (SEMI ) 预测,2025年半导体产业收入将实现两位数增长,并有望在 2030 年突破万亿美元关口,发展前景十分广阔。

然而,在 2024 年半导体产业复苏的表象之下,若剔除 AI 相关产品营收,整体增长实则呈现负向态势。这表明,自去年起的行业回暖,本质上是 AI 产业高速发展驱动的增长。

大模型从云向端侧渗透,正在倒逼软硬件重新设计

近年来,以大语言模型(LLM)为代表的生成式 AI 技术蓬勃发展,成为推动技术演进和行业变革的关键力量。根据 IDC 预测,到 2028 年,中国 AI 大模型解决方案市场规模将达到 211 亿元人民币,包括提供云服务模式交付的中国模型即服务(MaaS),以及提供模型框架、大模型、大模型生命周期工具链等的AI大模型解决方案,这充分显示出 AI 技术在云端的强大发展潜力和广泛应用前景。

与此同时,随着AI技术的飞速发展,其产业格局正在经历深刻的变革,呈现出从云端向端侧延伸的显著趋势。

根据 Counterpoint 的预测,2024 年端侧大模型参数量将达到 130 亿,而到 2025 年,这一数字将增长至 170 亿。这表明,AI 技术正在加速向端侧渗透,从云端的强大计算能力和数据处理能力,到端侧的高效本地化应用,AI 产业发展正朝着更加多元、灵活和高效的方向迈进。

以上种种趋势,都在倒逼端侧的软硬件进行重新设计与升级。在这一过程中,经过市场验证的底层计算技术架构成为推动产业发展的关键基石。这些架构能够为芯片设计和系统开发提供可靠的底层支持,降低研发风险,缩短开发周期,并显著提升系统的整体性能和稳定性。

Arm作为全球领先的计算平台公司,正通过其创新的计算架构平台,加上软硬件协同以及系统级思维,为释放 AI 大模型的潜能提供强大的支持,助力大模型从云到端的部署与高效运行。

Armv9 在云端率先开启了 AI 时代

算力需求激增的背景下,云服务提供商需要进一步优化数据中心架构,提升计算资源的弹性调度能力,以应对大规模 AI 模型训练和推理任务的高并发需求。

而对于芯片厂商来讲,他们需要研发更高性能、更大算力的通用或专用芯片,兼具高吞吐量、低延迟和高能效比,以支持大规模并行计算和复杂模型的高效训练与推理,应对数据中心能耗挑战。

在这样的背景下,Armv9 架构应运而生,并开启了AI时代。此时,Armv8架构已经服役10年,与上一代经典架构相比,Armv9 架构最大的特色就是集成了用于加速和保护 LLM 等先进的生成式 AI 工作负载的特性,比如可伸缩矩阵扩展 (SME) 和可伸缩矢量扩展 (SVE2) 两大关键特性。

其中,SME 使用量化(通常是从浮点表示法转换为定点表示法)来减少 AI 和 ML 模型的内存带宽、占用空间以及计算复杂性,进而提高其效率; SVE2有助于提升DSP 任务性能,该特性使得处理复杂算法更加快速、高效。

提到SVE技术,其起源可以追溯到2016年Arm与富士通的合作,该技术在富士通的A64FX CPU内核中首次实现商业化应用,并为曾登顶全球超算榜首的"富岳"(Fugaku)超级计算机提供了核心算力支撑。2019年,Arm在Armv9架构引入SVE2,正式确立其作为继Neon技术之后的新一代矢量处理标准。面向AI负载,SVE2的加持有助于提升DSP 任务的性能,使得处理复杂算法更加快速、高效,比如阿里巴巴达摩院就将其开源大模型 FunASR跑在Arm Neoverse 服务器上实现了高效运行。

其实早在 AI 时代全面到来之前,Arm Neoverse 平台就已凭借其在云端的通用计算性能和高能效,在AI推理场景中展现出独特优势。

笔者在两年以前曾采访过阿里云视频云,探讨其快速发展背后的硬实力是什么。除了强大的软件、算法支撑能力以外,阿里云视频云负责人致凡还提到了倚天710。他说,视频编码对算力的要求很高,所以常常会试图用算力换存储,用算力换传输带宽。而提升CPU算力的“捷径”就是选择更适配的内核架构。

当时在视频领域,传统架构已经有三十几年的历史,市占率在90%以上,但也背负着沉重的向后兼容包袱。因此,倚天710在预研阶段就锚定了Armv9架构,旨在解决历史包袱问题,同时还可以根据需求增加寄存器

此外,致凡表示:“不管是Hyper-Threading还是其他,采用传统架构的CPU走的都是提高主频的路子,这在视频处理时就会遇到一些问题,比如视频压缩的过程中,视频画面会被分成I帧、P帧、B帧,不同帧的算力并不是平均分配的,这就导致算力需求极不稳定。所以为了让芯片不跑超频,往往就需要做一些降频处理,这时候它的算力就可能达不到相应的编码需求。在实际业务中,由于视频业务不是单机运行的,会有很多的服务器集群配合来处理,为了避免CPU超频等复杂情况的出现,就不得不把服务器集群的水位降低,这是传统架构CPU比较大的问题。”

“然而Arm整体的设计是稳定的,不管任务有多复杂,都能实现稳定输出,做到良好的资源调配和水位调配,不用预留很多冗余来防止芯片超频,这对于to B业务来说非常重要。” 致凡补充道。

除了主频高以外,传统架构CPU的核不多,通常是两个vCPU/HT共享一个物理核、1份ALU,但Arm可以支持128/256/512或更多的核,类似GPU的设计,如此一来,对于不同应用场景而言,就可以用少核应对低算力需求的场景,多核应对高算力需求的场景,实现更优的业务调配,降低投入成本。

而在用电成本占据运营成本60%-70%的数据中心中,基于 Arm Neoverse 架构的服务器所具备的低功耗特性,能带来更优异的能效比。

如今,两年过去,目前已有更多头部云服务提供商和服务器制造商推出了基于 Arm Neoverse 平台的服务器产品,并提供了完整的软硬件支持和优化。比如,基于Arm Neoverse V2的AWS Graviton4 C8g.x16large 实例上运行 Llama 3 70B,每秒可生成 10 个词元,该速度超过了人类可读性水平;而基于 Arm Neoverse N2 架构的倚天 710,也在运行 Llama 3 和 Qwen1.5 等业内标准大语言模型时展现了极高的灵活性和可扩展性。

从某种程度上来说,Arm Neoverse 平台已逐渐成为云数据中心领域的事实标准。Arm在上个月公开宣布,2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。

在端侧,Arm 终端 CSS让大模型跑出“加速度”

随着生成式AI和大模型技术向终端设备渗透,计算架构的能效比与本地化处理能力愈发关键。

由于端侧设备的内存带宽范围通常在50-100GB/s之间,端侧大模型的参数规模一般被限制在1B至3B,而7B是临界值。

在此背景下,当大模型下潜到芯片层面,如何让大模型在AI芯片上运行得更快、调优得更好,成为当前人工智能落地的关键难题,采用更经济的AI专用芯片将成为必然趋势。

在端侧,Arm 终端计算子系统 (CSS for Client) 囊括了最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,甚至还包含知名代工厂采用3nm工艺生产就绪的 CPU 和 GPU 物理实现,可以直接用于SoC集成,为手机、平板、智能可穿戴设备等端侧AI提供了坚实的计算基础。

以基于Armv9.2架构的Cortex-X925为例,该CPU实现了Cortex-X系列推出以来最高的同比性能提升。尤其在AI性能方面,相比前代Cortex-X4 CPU,Cortex-X925的 TOPS 提高了 50%。

通过与Meta的合作优化,Arm CPU在移动设备上实现了Llama 3.2 3B模型的5倍提示处理加速与3倍词元生成提速,生成阶段可达每秒19.92个词元,这将直接减少在设备上处理AI工作负载的延迟,大大提升用户整体体验。

对于参数规模更大的Llama 2 7B模型,Arm CPU同样展示了端侧部署的可行性:与Llama 2 7B LLM 中的原生实现相比,词元首次响应时间缩短50%,文本生成速率提升至每秒10个词元,已超越人类平均阅读速度。这一成果得益于Arm工程团队对计算例程的深度优化,证明了纯CPU架构在边缘AI场景下的潜力。

值得一提的是,就在上个月底,Arm 高级副总裁兼终端产品事业部总经理 Chris Bergey在出席媒体活动期间透露:代号为 "Travis" 的Arm 新一代旗舰 CPU 将于今年晚些时候推出,对比现有 Cortex-X925 ,将继续实现两位数的 IPC 提升。

在软件层面,KleidiAI正在助力开发者实现AI普惠

在云端,软件开发者需要不断优化算法框架,提高模型的训练效率和推理性能,以降低云端计算成本并提升响应速度。在端侧,他们需要设计出更轻量级、更适应端侧环境的算法和框架,以实现快速响应和低延迟的用户体验。

为了助力开发者们更快、更好地实现大模型的性能提升与落地加速,Arm 在 2024 年推出了KleidiAI软件库,以其全栈优化能力重塑大模型落地范式。

KleidiAI的独特之处在于其高度适配Arm架构的优化能力,无论是Neon指令集还是SVE2和SME2扩展,从移动端到数据中心领域,它都能充分发挥硬件潜能。同时,它对PyTorch、TensorFlow、MediaPipe等主流AI框架的兼容性,让开发者无需重写代码即可享受性能跃升。这种“开箱即用”的特性,使其迅速成为Meta Llama 3、微软Phi-3、腾讯混元等大模型的首选加速方案。

更值得关注的是,KleidiAI并非局限于单一场景。从智能终端物联网设备到汽车和云端服务器,它的优化能力覆盖了Arm的全部业务领域,确保AI计算无论在哪里运行,都能以最高效率执行。

以与阿里巴巴淘天集团的合作为例,KleidiAI与轻量级深度学习框架MNN结合,成功让通义千问Qwen2-VL-2B-Instruct多模态模型在移动设备上高效运行。实测数据显示,模型预填充速度提升57%,解码速度提升28%,这意味着更快的图像识别、更流畅的交互体验,为阿里“以用户为中心“的应用带来质的飞跃。

无独有偶,腾讯则借助KleidiAI优化其自研Angel框架,使混元大模型在移动端的推理速度实现惊人提升——预填充性能翻倍,解码效率提高10%。这一进步让其众多APP 实现出色的 AI 体验,同时降低设备功耗,延长续航。

作为 Arm Kleidi 技术的一部分,Arm Compute Library (ACL) 通过利用 BF16 MMLA 指令,提供了优化的 BF16 通用矩阵乘法 (GEMM) 内核。阿里云倚天710 CPU,搭配 BF16 Fast Math 内核,使得 paraformer 自动语音识别模型的推理性能较同等级别的 x86 云实例有高达 2.4 倍的优势。从基准测试结果来看,倚天 710 在自动语音识别推理部署的 TCO 方面具有显著优势,其性价比较同等级别 x86 和 GPU 平台高出 3.5 倍。这不仅验证了Arm架构在AI计算中的高效能,也为企业提供了更具成本优势的云端推理选择。

未来,随着KleidiAI持续迭代,Arm正构建起横跨千亿级芯片设备的智能计算网络,这样一种"硬件架构+软件生态"的双轮驱动模式,或将成为AI普惠化进程的核心加速器。

写在最后

当大模型的算力需求从云端涌向端侧,从数据中心渗透至手机、汽车、物联网设备的每一个角落,这场技术变革的核心驱动力,正来自于软硬件协同创新的深度融合。

作为 AI 技术创新的核心基座,Arm 计算平台以其通用化架构与生态兼容性,正成为全球企业部署大模型的标配选择。

 

来源: 与非网,作者: 夏珍,原文链接: https://www.eefocus.com/article/1852670.html

Arm

Arm

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知识产权(IP)供应商,主要为国际上其他的电子公司提供高性能RISC处理器、外设和系统芯片技术授权。目前,ARM公司的处理器内核已经成为便携通讯、手持计算设备、多媒体数字消费品等方案的RISC标准。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相关推荐