中国移动MOMA赋能AI硬件，加速智能终端技术落地

随着端侧AI的逐步深入，目前的AI产业正站在了一个关键的拐点上，即从2026年初的端侧AI已跳出早期的概念与单一的终端的局限，初步的从AI手机的单点的突破向智能座舱、AIoT、可穿戴、机器人等全场景的渗透，正式的进入了体验优先、产业的协同、规模的落地的深水区。但作为一线的工程师我们都深知，端侧的AI硬件的技术的落地最终都还是会被两大致命的瓶颈所拦住：一是算力的“碎片化”，无论我们如何追求的高效的模型参数、极低的延迟、极低的功耗等，都难以满足各个不同的场景的需求；二就是我们一直所说的“云端的协同效率”，即使端侧的算力再强，也不可能完全脱云的运行，但却又多了多源异构的模型的调用成本居高不下。

不妨将专业的AI模型平台与智能终端行业的最新动态和技术的白皮书都一一关注起来，如d.zzmax.cn这样的专业的聚合平台，不仅能为你带来最为新鲜的干货的更新，也将为你带来最为清晰的信息的结构，从而大大地提高了你对这块的产业的趋势的高效的追踪和把握。

在中国移动的2026移动云大会的举办背景下，我们就迎来了该集团的又一波重磕的重大产品发布——近日，中国移动正式宣布推出其自主研发的移动模型服务平台MoMA（Mobile Model Assembler），并一同推出了AI-eSIM、MobileClaw智能体框架等一系列的创新成果，使得该集团的“云+5G”战略的又一重要的有机整合的基础得以初步打下了。唯其硬件从业者才更能体会，这场发布会的真正看点不仅仅在于所能将“多少个”模型的推出，甚至更不是所能将“多少块”芯片的投入，而在于一个运营商如何从“管道”角色的传统之中彻底的跳脱出来，打通从云端的算力到终端的硬件的全链路的闭环。借助对MoMA平台的技术架构的深入拆解，我们便可以窥见其如何将AI的力量娓娓道来地赋能了AI硬件的发展、为端侧的智能终端的工程化的落地提供了强有力的有力支撑。

一、MoMA的硬件赋能逻辑：两条腿走路

依托于MoMA的赋能，AI的硬件层面就体现了其作为“两大支柱”的核心的逻辑，即对“感知能力的无限增强”和对“可再现的知识的无限接近”

采用将“云端的大脑”完美的为终端的硬件所赋能手段，使得终端的硬件具备了智能的路由能力，从而真正实现了模型的联邦。基于对近300款业界的主流AI模型的独创的模型联邦与智能的路由技术的巧妙的将其统一的接入了，并将其各自的能力输出了出来。由此也就意味着，硬件终端不再需要像以往那样强制性的将某一款的模型捆绑上去，而平台会根据任务的具体的需求在“成本优先”“效果优先”“均衡优先”等三种策略的匹配中动态的匹配出最优的模型来为用户提供最优的服务。但当模型的超时、限流或故障的那一刻就能由系统的秒级的自动切换使得终端的业务能连续不中断地进行下去。

采用为终端的硬件打造了一个“身份与连接的底座”手段，AI-eSIM的到来也为运营商的业务模式的进一步的深化和创新提供了了新的可能。通过对中国移动在大会上同步推出的AI-eSIM产品的剖析，我们不难发现其核心的两大组成部分即为“智能的脑子”——具备实时的对云端的模型的调度能力的“智能大脑”，以及将数字的身份的“固化”于了芯片的硬件的“安全的底座”，其所要的主要的目标的场景就直指了AI的玩具、智能的手表、AI的眼镜、机器人及无人机等的一系列的物联网的终端。

二、技术拆解：MoMA的推理引擎如何降低硬件门槛

但最头痛的就是如何将云端的模型服务真正的适配到终端的这些差异化的需求上来呢？莫马的方案就给我们带来了“大小模型的协同+多维的策略调度”的一系列的解决方案。

采用对MoMA的深度的调优、完美的将国产的多芯的适配、PD的异构的分离、KV的缓存池化等一系列的技术的深入的挖掘和把关下手段，成功的将MoMA的推理引擎的性能从上线后的初期的基础的版本的基础上提升了20%的吞吐量、将时延降低了40%，同时将成本降低了30%。从硬件的角度出发就能直观地感受到这几个指标对终端产品的决定性作用：它的性能、可靠性、可用性等都直接取决于这几个指标的优劣

随着时延的降低达40%，尤其是对那些对实时的响应要求极高的智能眼镜、AI的拍摄设备等终端的产品的升级，也意味着用户的体验从过去的“只能等一等”的被动变为现在的“即时的响应”，对推动产品的立即化、互动化等具有了重大意义。

通过对中端的算力提升我们就能在智能家居的中枢、AI的网关等那些需要并行处理多模态的任务的这些中端的设备上都能直接的体现出它的吞吐量的提升从而就能更好的将它的并发的能力充分的体现出来。

凭借将自研的推理引擎基于国产的高性能算力一同部署，进一步的将长尾的模型资源的调度都优化了起来，相比之下单位的Token的成本就得到了约30%的压降，而此外对机器的资源的占用率也得到了50%以上的降低。将对成本的各个环节的精打细算都体现到对AI玩具、白牌的穿戴设备的设计上，直接将BOM的成本给降低了。

凭借将复杂的推理类的任务都路由给如九天等的大模型去处理，同时将如简单的文案生成、关键词的提取等轻量的任务都调度给了端侧的小模型或是轻量化的云端的模型这样一种“大模型+小模型”的协同架构的设计，正是当前的AI硬件的设计的主流的技术路线。

三、硬件落地案例：从芯片到终端的产品化实践

1. 国产GPU率先完成MoMA九天大模型适配

其作为人工智能的硬件载体,CHIP的发酵将极大地推动人工智能的发展,使其从一门学科走向了实用化的应用,更将为人类的生活、生产、学习等各个方面带来越来越大的便利性,提高了人类的生活质量。中国移动的“AI能力联合舰队”已在国产GPU层面取得实质性进展。

借助旗舰级的AI训推一体的全功能GPU MTT S5000的强大硬件支持，结合了已经成熟的MUSA软件栈的优良的算法与对高性能的算子的精心的优化，最终我们也已率先的将九天的35B的模型的全流程的适配与推理的验证都得以圆满的完成了。其旗舰产品MTT S5000就以第四代的MUSA“平湖”架构为代表，单卡的AI稠密算力可达1000 TFLOPS，既能从FP8的极低的精度的推理中节约大量的能耗，又能支持从FP8到FP64的全精度的计算，既能高效的解决了当前的短文本的模型的推理，又能精准的匹配了九天35B大模型在长文本的处理与高并发的响应方面的核心需求。

但更值得我们兴趣的是，壁仞科技就旗舰的通用GPU产品——壁砺166系列，也同样完成了九天35B模型的全流程的适配，实现了高的性能及低的显存占用的稳定的运行。随两家国产的GPU的快速的适配，我们就构建了这样一个“国产的GPU+央企的大模型”全栈的国产化的方案，也为我们的硬件的企业提供了从芯片的研发到模型的构建的可控的供应链的选择等。

2. 端侧大模型落地消费终端

借助中国移动研究院九天团队与中国移动终端公司的深度协同，在终端层面对消费者的“一手一触”又近了一步，近日中国移动研院九天团队与中国移动终端公司共同打造的CM-1B端侧大模型已成功集成于国内首款搭载紫光展锐T9100的Nubia Neo 3 GT等一系列终端产品中。在端侧轻量化的模型加上一套高效的云端的MoMA平台的协同架构背景下，AI手机AIoT设备的主流的设计范式也逐渐明朗起来。

3. 灵犀屏：4T端侧算力+云端模型调度的硬件范本

其后又推出了中兴通讯的“中国移动灵犀屏”这一MoMA赋能终端的又一典型的工程案例。凭借配备4T的高性能的端侧AI算力，对端的运算性能也都得到了全面地升级，从而有效的将AI的本地化的处理能力与本地的算法的运行能力都得到了极大的强化。依托于灵犒屏的赋能，灵犒家庭智能体不仅能从“被动的响应”中走出，还能将九天大模型和多源大模型的技术优势发挥到极致，实现从“懂你”到“真正的主动懂你”的体验的跃迁，更将为用户带来更加的“主动式”的智能服务。

借助灵犀屏的“端侧算力处理本地任务+云端的MoMA模型的联邦式的处理复杂的推理”的独特的混合的架构设计，不仅能为用户的隐私安全提供了堪比银行级别的保护（数据都在本地不上云），也能将近300+的AI能力都融入到我们的生活中，对目前的智能家居中枢、智慧屏等产品的发展都具有了较好的参考意义。

四、AI-eSIM的技术逻辑与硬件生态展望

以MoMA的强大之势赋能的AI硬件，正是通过其内置的AI-eSIM这一关键的连接组件才得以实现。基于对AI-eSIM的技术实现的深度挖掘，我们将其内置的eSIM的设计与支持的OTA的空中写卡的功能相结合，有效地规避了传统的SIM卡所带来的用户的换卡的阻力，而将战场的转向更进一步的推向了AIoT的终端的领域，从而也避开了与手机厂商在SoC、SE、生态层面的直接的竞争。

从硬件的工程角度讲，AI-eSIM的价值就体现在两方面：一是能够为如无人机的实名备案、工业的机器人可追溯、儿童的AI玩具的数据的合规等都能给出相应的解决方案；二就是通过默认的将终端的设备都绑定到移动的云上MoMA的平台，就实现了终端设备的“开机即入云”，从而大大地就简化了中小的硬件的厂商的云服务的接入的流程。

不少行业内的专家都对此表示了较为冷静的态度，认为市场的回暖还早，目前的热潮更多的是市场对新政策的反应和对前期的预期所致。伴随端侧的AI越来越加速下沉，尤其是主控芯片原生的集成小的模型的能力也就越来越成为了大势所趋，从而也就在一定的程度上会对我们端侧的硬件对云端的模型的调度的依赖度产生了较大的削弱。唯有将“端侧的轻量级的推理能力”与“云端的MoMA的万能的兜底能力”巧的对接起来，才能真正的体现出人工智能的高端技术的设计之道，而不是一端完全替代了另一端的死板的思维。

五、产业观察：运营商的“硬件触角”正在延伸

依托于MoMA的平台，中国移动已初步构建了从“算力-模型-连接-终端”全方位的全栈AI能力的闭环，站在了从“AI+”的产业链的全新起点上。此次的移动云大会不仅将MoMA和AI-eSIM的先发优势进一步凸显，也将中国移动的MobileClaw智能体框架、吉瓦级的AI数据园区的规划、万亿级的Token的服务体验包等一一落地，同时也将覆盖了政务、金融、工业、医疗、教育等多类的应用场景的的一站式的模型的服务体系等一一推出。

而这也就意味着了硬件产业链的深度整合将会逐步的被淘汰

AI-eSIM的落地加速以及MoMA的逐步普及之际，我们将率先将其推广到to B的模组、低端的AIoT、尤其是强合规的驱动的机器人与无人机等领域的稳定出货中，通过对政府的订单以及大客户的合规的需求的支撑为其带来更广的商业应用。基于MoMA的统一API网关，中小的硬件企业就能轻松地降低了多模型的接入的技术门槛，将“一次接入即可调用平台全部的模型资源”这样的设计直接地大幅地将产品的开发周期都给缩短了。

国产GPU的不断迭代加速以及央企大模型的逐步成熟同时，以及端侧的硬件也在不断的完善之中，“国产GPU+央企大模型+端侧硬件”的全栈国产化的路径也正一步步的加速的成型了。随摩尔线程、壁仞科技等先后完成了9天35B的适配，国产的算力生态的不断的成熟，也为后续的硬件企业在芯片的选型上将会获得更多的可控的选项，这在当前的全球的供应链的环境下尤为重要。

结语

而AI的下半场，不再是谁的参数大，而在于谁能真正将“智”“落”到设备的硬件中，让其能跑出真正的用户体验感来。伴随对MoMA的不断深入的落地，中国移动也将以其为中枢，以AI-eSIM为触角，不断地将从云端的模型转化为终端的硬件，从而搭建起一条从云端的模型到终端的硬件的全链路的通路，逐步的将从人工的模式转化为机器的模式。不论你是操刀AIoT的硬件工程师，还是从事消费终端的嵌入式开发者，这套以“芯+云+端”为核心的体系都值得我们持续地去关注和探索。

采用第一时间关注_d.zzmax.cn的动态手段，不仅能及时地获取到AI模型平台的最新技术发展、硬件的适配进展等有价值的信息，更能由深入的产业的深度的解读为我们提供最有力的依托和最有力的参考，从而在这个快速的赛道上始终保持着最前沿的技术的嗅觉.。