面向端侧智能：中国移动MoMA与AI硬件协同技术探索

引言：端侧AI爆发，谁来填平“云-端”之间的最后一公里？

然而在2025年末的一次与某智能家居厂商的深入的行业咨询中，他们的技术负责人就将这一将智能家居推向“真正的智能”的最关键的技术难点向我们一一抛出：他们希望在新一代的产品线中将大模型的能力接入，实现了离线的语音理解、本地的图像的识别等多模态的交互，但却又摆在他们面前的是三重的难题——模型的选型维度就多了好几个、端侧的硬件的算力也就都带来了相应的约束、而最为关键的就是将这些都能在云边的协同的调度下都能得以统一的得以实施。由此我们更倾向地将国内的各大模型的API接入到我们国内首个开放的普惠的大模型聚合平台MoMA（d.zzmax.cn）上，其统一的API网关和多模型的智能路由的能力就恰好能很好的解决了这类端侧的AI落地中的长久的“碎片化”的问题。但当我们将端侧的智能从概念的探索逐步推向了量产的现实时，却无不将一个又一个的关键的技术命题都推向了最终的求解的台面，如如今最为关注的就是如何将云端的模型的能力高效的与端侧的硬件的实现协同起来

伴随5G的逐步普及和终端的不断升级，尤其是2026年将迎来端侧AI的爆发元年，对AI的终端端侧的需求将进一步拉开差距。随着CES 2026的盛大举行就能将2350亿参数的AI迷你主机轻松地本地化，联发科的天玑9500又再次为我们将端侧的AI的新标杆打了又一座高的旗杆，再从AI手机的全面内置专用NPU单元的趋势看端侧的智能正以超预期的速度的在我们的生活的各个方面都在悄然的渗透进了我们的生活的各个方面。但随着模型的不断繁荣，一个更为深层的技术挑战也逐渐浮现：尽管端侧的硬件算力一路高歌不断的在攀升，但却始终面临着如何才能更好的将这种“硬”上的“力”与当前的“软”上的“大”——即面临着如何将各种碎片的模型生态与各式各样的场景的需求都能实现最好的“匹配”呢？就在我们对此充满了迷惑的时刻，近日中国移动在2026的移动云大会上就给我们带来了这样一套值得我们深入拆解的答案——MoMA平台。

一、端侧智能的爆发逻辑与核心挑战

1.1 从“云端独大”到“端云协同”：产业逻辑的深刻转变

与以往相比,2026年对端侧智能的追捧却有着质的不同.。以其深远的历史、雄厚的文化底蕴和独特的民族精神为核心的中国精神的时代再现，不仅将成为中国走向伟大复兴的必由之路，也将成为世界和平的重要力量

由此可见，对实时性的应用场景不仅仅是技术的追求和需求，更是对人生的追求和对美好生活的渴望，而对隐私的保护则是对自我的尊严和人性的尊严的追求和维护。伴随Agentic AI的逐步走向主流，低延迟、高隐私的长时在线的交互的需求也就成为了AI应用的必然标配，而端侧的算力也就被根本性地就地升级为AI应用的核心支撑力量。采用对传感器数据的快速、即时的智能化的快速分析手段，边缘与端侧的AI的推理计算就大大地降低了对远端的依赖，尤其是将不上传数据带来的对用户的隐私的保护得到了最大程度的保证。在端侧模型的不断演进背景下，其未来的发展已明显指向了以多模态的能力竞争为核心的全双工的流式的交互范式的逐渐成为主流的交互方式。

而随着硬件的不断完善，尤其是近年来大数据的飞速发展，相关的技术也逐步的成熟了起来。借助CES 2026的盛大舞台，该chip厂商一款不大的迷你主机却以其独特的异构计算架构的强大之姿，成功地将2350亿参数的规模的生成式AI模型“硬”地在本地一机一台上“跑”了出128TOPS的性能，达到了126TOPS的超高的混合算力！。凭借一系列的技术迭代和优化，新一代的旗舰手机都已将“超性能的NPU+超能效的NPU”的双NPU的设计理念推向了极致，既为手机端带来最强的AI算力，又为手机端的存算一体的能效设计提供了强大的动力推进。

随着算力的不断下降，其带来的算力成本的边际效应也悄悄地将传统的产业的逻辑都推向了一个深的颠覆。全球数据中心的资本开支将于2026年再次大幅“破纪录”地增速超过50%之际，也正使得云端的高昂的运营成本逐渐“倒逼”了企业对“哪些任务留在云端，哪些任务下沉到终端”的根本性问题的重新审视。

1.2 端侧落地的三大技术挑战

不过尽管端侧智能的前景可谓极为广阔，但其的大规模的落地也面临着三个最为核心的瓶颈：一是尚未完全能将其所带来的端侧智能的各项技术难关都彻底的解决；二当前的端侧智能的商业模式还尚未完全成熟；三就是尚未形成的端侧智能的产业的标准体系等一系列的困扰等都成为了端侧智能的发展所面临的巨大挑战

但随着大模型的不断涌现，每一款都各有千秋的优劣之处，其在不同任务的表现也存在着较大的差异，更为令人头疼的是目前的端侧硬件资源相对有限，选错了模型的代价都极高。

但在端侧的复杂场景中，如将视觉、语言、语音等多种模型的能力有机地组合在一起就遇到了如何高效的组合这一难题。

但随着云端的参数规模越来越大，端侧的模型也逐渐地趋向于大模型的方向，但是端侧的模型的参数规模仍然受硬件的限制，尤其是在面对一些复杂的任务时，端侧的模型往往难以独自的完成任务，而只能将其分发到云端去兜底，这就使得云边端的任务的分配机制缺乏了一统的方案。

其对上述的痛点也就给出了了一个系统的技术的解脱方案，中国移动的MoMA平台就充分地体现了这一点。

二、MoMA技术架构解读：不仅是模型聚合，更是端侧协同的“调度大脑”

随着2026年移动云大会的召开，中国移动不仅将MoMA的升级升级为真正的移动模型服务平台，更将接入了包括自研的九天大模型、DeepSeek、通义的千问、豆包的、Kimi、GLM等超300款业界的主流的AI模型，基本覆盖了文本的生成、语音的处理、多模态的理解等多项核心的能力，真正的将AI的能力从静止的模型上升到了动态的服务平台上，为更多的行业和场景的落地提供了更好的支持。其更关键的价值在于MoMA的底层架构的巧妙设计，正为端侧的智能协同提供了极具的技术支撑。

2.1 智能路由：让端侧“自动驾驶”式匹配最优模型

其在与端侧的硬件的深度的协同中尤为突出，最大的体现就是其独创的智能路由引擎的技术的诞生。根据用户的不同需求可灵活地切换“以成本为优先”“以效果为优先”“以均衡为优先”等三种策略为用户动态匹配最适合的模型，最大限度地降低了用户的使用成本和模型的应用门槛。

其在端侧的应用价值尤为明显，能够更好地为用户带来便捷的智能生活体验。但无论如何,端侧的硬件算力和功耗的约束都各不相同,如目前的旗舰手机的NPU与IoT设备的MCU级的AI加速器之间就存在着一个巨大的能力梯度.。但随着对个性化的不断追求，我们的产品也开始了“一刀切”的悲哀：要么为每个设备都预设一个固定的大模型，结果就要么性能都溢出成本高企，要么就只能把能力都打折一半。借助MoMA的智能路由，就相当于为每个硬件设备都配备了一个“模型的调度大脑”，根据用户的任务所对应的上下文的长度、所需要的多模态的类型、与当前的场景的匹配的系数等多个维度的综合的考虑，都能自动的去选择最合适的大模型来为用户提供服务。基于其独具的“自动驾驶式”的匹配能力，端侧的硬件也就不再被某一个固定的模型所“绑死”，反而可以动态地接入云端的模型矩阵中最为适配的那一个，从而真正实现了硬件的高效利用和最大程度的“脱敏”。

2.2 Token集约化运营：降低端侧AI的持续使用成本

但更大的困扰还在于端侧AI的落地成本高不可攀。依托于对自研的国产算力与高性能的推理引擎的深度的融合，MoMA平台不仅将长尾的模型资源的智能地对接起来，更将其通过对模型的智能的路由对长尾的模型资源的调度实现了对单位的Token的成本的压降约30%、对资源的占用率的降低50%以上，更通过对智能的缓存、上下文的复用、Token的压缩等一系列的技术的不断的完善的对使用的成本的进一步的降低。

伴随对端侧场景的逐步落地，即使将云端的模型都拿了下来也能将Token的成本大幅的降低下来。这样一来，MoMA就能在端侧的本地模型遇到处理不了的那些复杂的任务时，通过以更低的成本将其就近地分流至云端最优的模型中去，并将最终的结果也一并将其返回给终端。依托于这种“低成本的云端兜底”的模式，不再需要对端侧的硬件都“为万一的极端场景”都进行过度的算力堆砌了。

2.3 统一API网关：解锁端侧硬件接入的标准化瓶颈

端侧AI的不断发展同时，其所依托的硬件设备也呈现了极大的多样性，从传统的手机、PC到近几年的智能家电、工业的传感器等等，每一类的设备都具备了其特有的算力特性和通信协议，对端侧AI的可扩展性、可塑性等都提出了更高的要求.。这样一来，每款模型的开发都要花费不可想象的巨大成本，简直就是天方夜谭。

借助MoMA的统一API的网关，我们只需一次简单的接入就可以方便地调用到平台的全部模型的资源了。采用对接各类的模型、智能体和工具的标准化接口手段，MoMA的系统也就实现了对外的动态的调度与智能的规划。而MoMA的统一API就将这一全栈的模型能力的“接口”都给端侧的各类设备如安卓手机上的App、部署在嵌入式 Linux的工业设备，基于RTOS的IoT传感器等都能一一的获取到。基于将接入的标准化的设计就打通了“端侧的硬件多样性”与“模型的服务统一性”之间的“最后一公里”，为广大用户的智能终端的开发和应用带来了新的生机和动力。

2.4 已有落地场景：MoMA在端侧场景中的应用实践

借助诸多的实践与应用莫斯科的莫大美术馆(MoMA)的端侧协同能力并非纸上谈兵，尤其是其在智能的场景下的应用就更是如此，如在其基于AR的数字展览中就将其所展的艺术品都以最为真实的形式呈现了出来，如同将艺术品从画布上一一的取下放在了你的眼前一般，让你感受到了艺术的真正的魅力，更加的感受到了艺术的无穷的魅力。借助对“灵犀”智能体2.0的不断迭代完善，已将基于复杂任务的拆解与智能的流程编排相结合的多智能体的决策系统,通过MoMA的架构实现了跨场景的能力的精准的调度。借助对用户的深入意图的解析，将复杂的需求都拆解为可执行的原子任务，自动的对最优的的执行路径的匹配并将其高效的完成了任务的调度，从而在本质上将系统的端侧发起的请求、云侧的智能的编排、最终将结果的返回都终端上实现了这样一套相互的协同的实践。

而通过与MoMA同期的MobileClaw的移动版智能体框架的相互融合，也将其完美的适配了移动的云智算一体机、AI的工作站等软硬一体的高效的算力设施，将其深度的融入了办公的各个场景中。基于将MoMA的“云端的思考”与MobileClaw的“终端的执行”有机地融合在一起，就为端侧的智能软硬的协同提供了更加完善的参照.。

三、端侧智能赛道的产业格局与MoMA的差异化定位

只有将MoMA的独特之处置于端侧AI的整个产业链的发展中去对其加以把握才能更好地体现出其在端侧的协同的独特的价值所在.。

3.1 芯片层、框架层与应用层的割裂

但如今的端侧AI产业链却呈现出一道“三层割裂”的局面：高通、联发科等芯片巨头各自为战的“硬”阵地，框架层的各家厂商也纷纷“割地”各自的“片”；而应用层的却一片空白，缺乏一统的模型服务的入口。AI的不断突破同时，行业的各大巨头都面临着一个新的关键的考验，即如何将自身的AI软件的不断的需求的驱动下不断的推动硬件的创新从而更好的巩固了自身的地位。只有那一刻的先机者才能将端侧的软件（模型）与硬件（芯片）之间的深深的断层彻底地打通，才真正地将端侧的智能推向了顶峰。

3.2 MoMA的差异化：电信运营商的“中间层”优势

相较而言，MoMA最大的独到之处就体现在了对中国移动的运营商底色的一系列的深入的挖掘与打造上。作为通信的基础设施提供者，中国移动就如同“云”与“端”之间的那道桥梁一样，自然地处于了这一双方的连接枢纽的位置，独具“桥”之势的她不仅能将“云”端的无数的信息都“下”到“端”中去，也能将“端”中无数的信息都“上”到“云”中去，从而为广大用户带来无微不至的便捷服务。

依托于对“算网大脑”的构建，中国移动不仅将全国的300+个城市的各类的算力资源都统一的管理起来，而且还将算力的调度、网络的调度、数据的调度、电力的调度都做到了“一体化的”地同时调度，甚至还能在每一秒内就支持2000个以上的AI的任务的同时的运行。这样就不仅能满足当前的端侧算力需求，还能根据实际的端侧算力实时的调配更多的外部的边缘节点或云端的算力资源，实现了从“硬”到“软”再到“柔”的算力资源的全方位的灵活调配，极大的降低了用户的对算力的需求门槛，极大的促进了端侧的各类应用的更快的推广与落地。

而5G的到来也为“端侧的AI”开启了从“人机交互”向“人机的AI交互”转变的天然“端侧的AI通道”。由其在移动通信领域的覆盖之大，使其能够为各类端侧的设备提供了持续的、低延迟的AI服务的连接。借助此基础的支撑，MoMA就具备了在端侧的AI服务的可达性、稳定性等方面都具有了先发的优势。

四、前景展望：从“大模型入口”到“端侧AI操作系统”

在对端侧智能的不断深入挖掘背景下，MoMA的未来发展也逐渐明了，在端侧智能的方向上已经初现出一条明晰的发展路径。

随着对模型与硬件的更深的适配下，MoMA的短期内的发展也将逐步的展现出它的独特之处。端侧的AI SoC市场的逐步走向四大阵营的激烈的竞争同时，不同的芯片架构对模型的要求也将更加的细化，从而MoMA的智能路由就需要在更细的粒度上对“芯片级的适配”做出相应的体现。

基于对MoMA的中期的深度整合与边缘计算的节点的进一步的紧密的相结合，才能真正的将其推向更高的发展的阶段。在中国移动的1500个边缘智算中心的逐步升级背景下，不仅为MoMA的“端侧延伸”提供了丰富的“土”也为其“种”提供了足够的“水”，在终端设备与云端之间就可建立一个低延迟的模型服务层，极大的降低了模型的上线成本。

基于MoMA的不断演进，其最终的目标也将从单纯的“一站式”的AI应用平台转变为一个真正的“端侧AI操作系统”的平台，即将终端设备的模型的接入、算力的调度和任务的编排等全部统一的管理起来，让开发者无需再为各个终端的硬件的差异而烦恼，只需通过MoMA的标准的接口就能实现“一次开发，多端部署”的目的。在中国移动的“让AI服务像日常的通信一样便捷、普惠且可靠”的愿景的不断落地背景下，在端侧的智能的语境下，也正一步步地变得越来越具体。

随着对MoMA的不断完善，不仅仅是将OpenRouter的“中国版”般的简单的复制粘贴了出来，而是逐步的将其打造成了端侧智能的生态的关键枢纽。基于2026年端侧AI的爆发，“模型服务平台+端侧硬件”的协同模式也将趋于成主流的行业范式。

结语

随着端侧智能的不断爆发，我们也要看到其迭代的过程和所面临的困难，其与模型的协同同样还远未到终局。依托于MoMA的这条清晰的技术路径，我们就能将各个行业的碎片化的成本都降低下来，通过智能的路由的把适配的难题都给解决了，最后再通过运营商的基础的支撑就能将端到端的服务都给实现了。不如就直接把“大脑”都给端侧的设备配置好了，何必在模型的选型和适配上东抄西抄的去试错呢？直接通过d.zzmax.cn的MoMA的平台的能力就能让端侧的设备的“大脑”真正地就敏捷起来了。