译者案:IEEE通信学会(ComSoc)发布的《电信领域大规模AI应用——创新、规模化落地与数字体验升级路线图》(LARGE-SCALE AI IN TELECOM——Charting the Roadmap for Innovation, Scalability, and Enhanced Digital Experiences)白皮书,为行业指明了一条融合生成式AI与电信大模型(LTMs)的革命性路径。
本文摘选翻译白皮书第8.1章内容,翻译不准确之处,敬请谅解。关注公众号【5G行业应用】,回复“260415”可下载白皮书原文
8.1 边缘侧的电信大模型
8.1.1 电信大模型与边缘计算的协同效应
电信大模型与边缘计算的融合,标志着计算与网络技术领域的范式变革。传统以云为核心的架构正逐步被边缘计算补充完善,边缘计算可在更靠近数据源头的位置完成数据处理。这一演进对于自动驾驶系统、工业物联网、智慧城市等现代应用至关重要,这些场景对实时处理、低时延和隐私安全有着严苛要求。两大技术领域的融合,既发挥了人工智能大模型的强大能力,又解决了边缘环境的资源受限问题。通过将计算技术进步与分布式网络相结合,这种协同效应有望在攻克重大技术挑战的同时,实现行业变革。
大语言模型是现代人工智能的基础核心组件,GPT-4、LLaMA 等架构均采用了数十亿级别的参数量。这类模型在需要上下文理解的任务中表现卓越,例如自然语言处理、多模态推理以及下游任务泛化。其强大能力源于 Transformer 架构,该架构通过自注意力机制捕捉数据中的长距离依赖关系。
尽管性能出众,大语言模型的部署仍面临着严峻挑战。其庞大的模型体量和资源密集型特性,往往超出了边缘设备的计算、内存和能源承载能力。为应对这些限制,业界已开发出模型剪枝、量化、参数高效微调等技术。这些创新技术能够让大语言模型适配特定应用场景,在最小化资源占用的同时保持模型性能。
边缘计算的核心作用
边缘计算实现了计算能力的去中心化部署,将处理能力部署在更靠近数据源的位置。与基于云的系统不同,边缘计算通过本地数据处理降低了时延。对于自动驾驶这类需要毫秒级决策的应用而言,这一能力不可或缺。此外,边缘计算仅将关键数据传输至中心化系统,大幅降低了带宽占用;同时通过敏感信息本地化处理,提升了隐私安全水平。
协同边缘系统是边缘计算领域中发展迅猛的一个方向,多台边缘设备可通过协同工作分担计算负载。该方案将原本闲置的资源转化为数据处理的有效算力,显著提升了系统运行效率。
大语言模型与边缘计算的融合
大语言模型与边缘计算的融合,实现了大模型高性能与边缘环境资源受限之间的平衡。模型优化技术的创新,让大语言模型在边缘侧部署成为可能。例如,模型量化降低了精度要求,剪枝技术移除了冗余参数。EdgeShard、协同边缘框架等技术可将大语言模型分布式部署在多台设备上,实现工作负载均衡,保障更快的处理速度。
此外,云边协同的混合架构可将资源消耗最高的计算任务卸载至云端,同时将对实时性、低时延敏感的任务保留在边缘侧执行。这种分工模式既保障了最优性能,又不会给边缘设备造成过重负担。例如,公共安全领域的视频分析、工业场景的预测性维护等应用,均依靠云边协同实现海量数据集的实时分析。
应用与落地场景
大语言模型与边缘计算的融合,催生了海量应用场景。在机器人、智能工厂等自动驾驶系统中,边缘计算支撑快速决策,确保目标识别、运动协同等任务无延迟执行。例如,边缘部署的大语言模型可对机器人系统进行实时调整,大幅提升作业精度与可靠性。
在医疗健康领域,边缘计算在保障患者隐私的同时,实现了诊断环节的实时分析。医院和诊所可部署基于边缘的大语言模型,用于医学影像分析、患者病史处理、个性化治疗方案制定等任务,减少了敏感数据向外部服务器的传输需求。
基于智能手机的虚拟助手,充分展现了该融合技术面向消费端的巨大潜力。部署在边缘侧的轻量化大语言模型,可实现上下文感知服务,包括个性化推荐、自然对话能力、用户数据本地化处理。这些功能对于保障流畅的用户体验,同时遵守严格的隐私监管条例至关重要。
在工业物联网领域,由边缘计算与大语言模型赋能的预测性维护,实现了设备性能的优化。企业通过本地处理传感器数据,可实时识别异常、预判故障并启动预防性措施,最大限度减少停机时间与运营成本。
挑战与未来发展方向
尽管前景广阔,大语言模型与边缘计算的融合仍面临诸多挑战。资源分配是核心问题,边缘设备需要在有限的处理能力与大语言模型的高算力需求之间实现平衡。任务调度、动态资源管理、实时任务卸载的高效算法,是突破这些限制的关键。
能耗是另一大重要挑战。在边缘侧训练和部署大语言模型,需要创新的解决方案实现电力需求的可持续管理。面向绿色人工智能的相关研究,例如高能效硬件设计、自适应推理技术,对于该技术的规模化落地至关重要。
安全与隐私问题同样不容忽视。在云边交互过程中保护敏感数据、保障模型免受对抗性攻击,是维持系统公信力的核心。先进加密技术、安全通信协议、鲁棒的模型防御机制,是当前的热门研究方向。
未来的发展方向包括:开发能够在动态环境中实现实时学习的自适应大语言模型,这类模型可根据网络流量、用户行为等条件变化进行调整,无需完整重新训练;此外,6G 网络与边缘计算的融合,将进一步提升大型电信模型部署可用的带宽与连接能力。
8.1.2 面向超 5G 网络的边缘增强型微型机器学习
微型机器学习基金会(近期更名为边缘人工智能基金会)受到的关注度持续攀升,同时第三代合作伙伴计划(3GPP)在人工智能赋能的超 5G 网络领域的标准化工作快速推进,这两大趋势凸显了通信系统正在发生的重大变革。微型机器学习联盟的相关工作,与 3GPP 在无线接入网(RAN)和系统架构(SA)两大领域的标准化进程齐头并进,充分体现了边缘人工智能正在深刻改变设备、网络的设计方式与运行模式。
这一变革在多项近期技术进展中均有体现,例如低能力(RedCap)终端的出现、无线设备感知能力融合的技术突破,以及基于神经网络的算法在传感器数据与通信信号处理领域的普及。这些技术进步,推动了原生边缘使能方案的规模化应用。
在这一技术框架中,边缘大语言模型与边缘大型 Transformer 模型发挥着核心作用。设备端嵌入的模型,需要通过知识蒸馏、空中模型传输等技术完成训练与更新,让设备能够无缝接入高性能计算框架,支撑其原生业务运行。这些机制保障了模型对动态变化环境的高效适配,同时提升了资源受限终端的性能。
8.1.3 基于联邦多任务学习的大语言模型微调
大语言模型的飞速发展,彻底革新了自然语言处理领域,凭借其多任务模型的能力,实现了从对话智能体到复杂内容生成等各类应用的落地。然而,要将这些强大的模型定制化适配到特定领域或任务中,往往需要大规模的微调工作,这不仅会带来极高的计算开销,还会引发严重的隐私安全问题。传统的微调方案通常需要集中访问海量标注数据,而受限于数据所有权限制、隐私监管条例以及数据体量等因素,这种模式在实际应用中往往难以落地。
联邦学习(FL)带来了范式层面的变革,它支持多个客户端在不共享本地数据的前提下,协同训练一个全局模型。该方案从底层保障了数据隐私,降低了中心化数据聚合带来的安全风险。但传统联邦学习算法的设计目标是优化单一全局模型,在客户端固有的多样化任务与异构数据分布场景中,往往无法实现最优性能。这一局限在大语言模型微调场景中尤为突出,因为大语言模型通常会部署在不同领域,面临差异化的任务与需求。
联邦多任务学习(FMTL)对联邦学习框架进行了扩展,它允许每个客户端训练适配自身特定任务的个性化模型,同时仍能从整个网络的集体知识中获益。该方法将客户端间的交互建模为一张图:节点代表客户端,边量化任务间的相似度。通过这种方式,联邦多任务学习能够实现个性化模型的训练,让模型既具备任务专属的专业化能力,又能吸收相关任务的知识。该方案不仅提升了模型在单个任务上的性能,同时保障了异构环境中的可扩展性与适配能力。
大语言模型微调的核心挑战之一,在于这类数百万甚至数十亿参数量的模型带来的计算与通信开销。现有的大语言模型联邦微调方案,大多利用参数高效微调(PEFT)方法提升通信效率、减少可训练参数量,相关框架采用了提示调优、零阶优化、低秩适配(LoRA)等技术。但这些方法通常通过参数平均学习单一全局模型,在异构环境中难以达到最优效果。为将联邦多任务学习应用于大语言模型微调,我们提出了 MIRA 算法,这是一种参数高效的算法,将低秩适配与联邦多任务学习范式融合,实现了联邦模式下大语言模型高效、高性能的微调。低秩适配将大语言模型的权重矩阵分解到低维子空间中,大幅减少了可训练参数量,缓解了大语言模型训练中常见的计算与通信开销问题。在 MIRA 算法中,每个客户端维护专属的低秩矩阵集,基于本地数据迭代更新,并通过中心化参数服务器,根据任务相似度进行正则化约束,实现与相似任务的对齐。
MIRA 算法通过多轮通信迭代运行。在每一轮迭代中,选取部分客户端,利用其私有数据对本地低秩矩阵完成本地更新。本地训练步骤完成后,客户端将更新结果传输至服务器,服务器随后执行正则化步骤,基于相似度图对模型进行协调统一。这一过程确保了任务相关的客户端能够相互影响彼此的模型参数,在保留每个客户端任务专属适配能力的同时,促进客户端间的协作与知识共享。
接下来,我们将详细介绍实验设置,并将所提出的 MIRA 方法与现有的大语言模型联邦微调方案进行性能对比,具体对比基线为 FedIT 与 FedP-Tuning。我们采用了 Data-Juicer 模型 —— 这是一款基于 Llama 构建、参数量 13 亿的大语言模型,在自然指令(Natural Instruction)数据集上完成了实验。参考相关研究的设置,我们对数据进行了预处理,采样了约 20% 的训练集与 2% 的测试集。联邦学习设置包含 80 个客户端,每个客户端对应唯一的本地任务;每一轮通信迭代随机选取 10% 的客户端参与,共执行 60 轮通信迭代。我们采用平均训练损失、平均测试损失以及 Rouge-L 分数作为性能评估指标,其中 Rouge-L 分数通过识别模型输出与参考文本间的最长公共子序列,评估文本生成质量。所有实验均在搭载 40GB 显存的 NVIDIA A100 GPU 上完成,所有方法均选取了最优超参数,保障对比的公平性。
图 34 展示了所提出的 MIRA 方法与基线方法的性能对比结果。具体而言,在自然指令数据集上对 Data-Juicer 模型进行微调时,MIRA 的性能优于两款基线方法。事实上,图 34 (b) 显示,在约 20 轮通信迭代后,MIRA 的性能就超越了性能最接近的基线方法 FedIT。
表 16 中,我们评估了联邦多任务学习对单个任务性能的影响,对比了 MIRA 与基线方法对不同任务的适配效果。我们随机选取了 4 个客户端 / 任务,记录了训练过程中的平均测试损失。结果显示,在 4 个客户端 / 任务中,MIRA 在 3 个任务上实现了更低的平均损失,充分体现了联邦多任务学习的有效性,以及其适配任务专属需求的能力 —— 这与其他基线方法采用的模型平均方案形成了鲜明对比。
图 34:在自然指令数据集上,所提方法与基线方法在 Data-Juicer 模型上的性能对比
(a) 训练损失随通信轮次的变化 (b) 测试损失随通信轮次的变化
表 16:在自然指令数据集上,Data-Juicer 模型中部分选定客户端的本地测试损失
| 客户端任务 | 算法 | 测试损失 |
| 问答任务 | MIRA | 2.7 |
| FedIT | 1.8 | |
| FedPTuning | 9.55 | |
| 程序执行 | MIRA | 0.23 |
| FedIT | 0.37 | |
| FedPTuning | 0.87 | |
| 说话人识别 | MIRA | 1.87 |
| FedIT | 7.01 | |
| FedPTuning | 11.98 | |
| 结果解释 | MIRA | 1.99 |
| FedIT | 2.55 | |
| FedPTuning | 3.08 |
▎好书推荐
本书由吴冬升、李大成担任主编,机械工业出版社出版。书中在分析智慧城市重点建设内容和智能网联汽车重点发展内容基础上,进一步探讨智慧城市与智能网联汽车融合发展带来的车联网智能道路基础设施、新型能源基础设施、地理位置网、现代信息通信网、车城网平台建设和发展情况。并且介绍智慧城市与智能网联汽车融合创新发展的相关案例。
吴冬升 博士
48