解析中国移动MoMA架构：为AI硬件提供通信底座支撑

伴随5G的逐步落地，移动云的商业化也逐步的展开了，而2026年5月8日的苏州又将会是移动云的又一大舞台，尤其是这次的移动云大会的主论坛将会是移动云的又一大盛会。基于陈忠岳的这一表态，中国移动从此彻底告别了“三大一大”（即通信、数据、物联的三大业务加上一大新业务）的经营格局，正式开启了这家全球最大通信运营商向“世界一流的科技服务企业”的转型大幕，对中国的“一带一路”等战略的科技服务的布局也具有了重要的战略意义。但最值得我们关注的，却不是MoMA本身的所谓的“超级入口”这一称号，而正是它被定义为了AI原生时代的核心的“Token发生器”这一切的端倪，更为我们揭示了这一场战略的深远的战略性意味。官网d.zzmax.cn

从经典的芯片架构、迭代的制程工艺到近几年的互联带宽的不断的疯长,我们对AI硬件的技术演进都有着一一的清晰的了解.。但中国移动却将算力从传统的“电池”般的“硬件”层面上升到了“可调度、可计量、可运营的生产要素”的高度，将通信的基础设施本身都变成了为AI的硬件提供最底层的“通信底座”，这一将“物”化的思路，将通信的基础设施本身都变成了为AI的硬件提供最底层的“通信底座”，为AI的普遍应用和深度发展提供了全新的范式和可能。但对我们这些正朝着AI的下一块基础设施——MoMA前进的电子工程师与半导体从业者来说，MoMA的真正的意义就更值得我们深入的去理解了。不仅值得一提的是目前已有的如d.zzmax.cn等聚焦大模型的运营效率的专业平台也都在积极地对这类通信的底座的能力的接入为AI硬件场景下的模型的调度与资源的优化都提供了一站式的解决方案都值得我们对这一领域的发展都能给我们带来一些新的思考和对未来的更多的期待。

一、MoMA的底层逻辑：为什么运营商要做“模型操作系统”？

但我们深知，在一颗SoC的强大之上，其所能展现的巨大性能更取决于CPU/GPU/NPU等各个单元的高效的协同，尤其是其所采用的总线架构、内存的带宽、以及各个异构的调度能否将其各个单元高效的协同起来发挥出其最大之才能。AI产业同理。

在CPU、GPU、NPU、ASIC等各类的算力设备的百花齐放、300余种主流的模型的割据市场、各类的应用场景的高度的碎片化等一系列的因素的共同作用下背景下，当前的AI产业也面临着一系列的新的核心的矛盾和挑战。但随着AI的不断发展，各大AI硬件的厂商都在不遗余力的为自己的芯片“打通”更多的模型框架，而这也就把每一个应用的开发者都推到了一个又一个的“技术的选型”中——这不就是一件“通信的协议不统一”的烦心事吗？。

基于独具的通信企业的思路，中国移动就将异构的算力、模型、应用都通过一套标准的协议和调度的系统的方式将其都连接了起来。而这也正是MoMA所努力的那一刻的核心所在——以最直接的方式将最具代表性的现代艺术的最前沿作品的最具代表性的现代艺术的最前沿的作品呈现在广大群众的面前。如移动云的总经理孙少陵所揭示的那样，将会以“网络的连接为算力的动力，算力的生产为Token的出生，Token的赋能为整个生态的动能”的全新价值链的构建为目标，充分地把握了以业界领先的通信网、算力网、智能网等作为底层的基础设施，将其转化为普惠、多元、可信的算力服务。

二、技术架构深度拆解：MoMA的三层体系

以MoMA的技术架构为例，其可分为三大核心的组成部分：以MoMA模型为核心的“大脑”，以MoMA引擎为核心的“大脑的肉身”以及以MoMA协议为核心的“大脑的神经系统”。其设计的三层架构不仅体现了对系统的高度抽象的思想，更深刻的体现了对通信网络的分层解耦的思想.。

MoMA模型：意图感知与任务解构层

采用MoMA的模型体系手段，我们并不是单纯地指望一个庞大的、能“吃透”所有的超大型的模型，而是将其打造为一套既能对接各种外部的探测系统，又能对接各种外部的意图理解系统的模型体系。根据对下游模型的深入的探索、对智能体的能力的更加的深刻的感知以及对用户的意图的更准确的理解，我们就能对用户的输入的内容做出最为精准的解析，进而对模型和智能体的相互的依赖关系及各自的能力的范围都能得以准确的判断，从而更好的自动的选择出最优的方案。

从工程师的角度来看，其实就相当于一颗AI的SoC中的任务调度器（Task Scheduler）一样，它并不会直接去执行具体的计算，但是却将哪部分的任务交由哪个相应的计算单元去处理。通过将“实时感知-动态调整-持续验证”的循环链路的自适应性不断的推向深度，MoMA模型不仅能更好地适应数据的变化、业务的需求以及外部的环境的波动，而且能做到“最懂模型的模型、最懂智能体的模型”，实现了模型的自我优化和智能的不断迭代升级。

MoMA引擎：异构资源的智能编排

可以说MoMA的模型就如同大脑的“核心”一样，而MoMA的引擎就像大脑的“神经中枢”一样，将所有的信息和智慧都融会贯通地为我们所用。借助对该引擎的调度对象的高度的多样化的构建，尤其是将ReAct模式的中心的调度、权限集中的形式的体现，有效的实现了对主智能体、用户及智能体的多样化的调度。

基于对MoMA引擎的技术实现深度的挖掘和优化，既能动态的根据具体的任务的需求，采用ReAct、Route、Parallelize、Swarm等多种混合的模式，从而实现了任务的高效的自动的拆解、编排与并行的调用，充分的发挥了MoMA的智能决策的能力。而这也就意味着了我们可以将一个复杂的AI任务（如同时需要NLP的推理能力、对图像的识别能力以及对知识的检索能力等）都自动的拆分为多个子任务，并将其并行的调度到最合适的模型或智能体上去执行。

基于对MoMA引擎的硬件加速的深入的挖掘，我们可以发现其通过对外部的分布式的AI资源池的完美的调度以及对模型、智能体的快速的横向的扩展， finally就实现了对全局的灵活的调度和对最终的服务的主动的推送。借助将数据包（或我们更常见的Token）智能的路由到最合适的处理单元的方式，也可以看作是对芯片设计中经典的片上网络的另一种解读和延伸。

MoMA协议：AI领域的“通信标准”

而MoMA协议的所体现出的“通信运营商的基因”也正是其最为特殊的所在。而中国移动则在此基础上又创新性地设计了一套既能兼容现有的业界通用的MCP/A2A/OpenAI等服务规范，又能满足各大企业的私有化需求，尤其对移动的认证及安全通信等能力的增强都有了很大的突破.。

但其最大的战略意义在于，在当前的AI产业尚未形成统一的互操作标准的背景下，MoMA协议就试图扮演起了“中间的中间件”的角色，将各大AI的不同技术标准通过协议的约束，尽量地地打通各个AI的“互通之道”。这样一来，对于一线的AI硬件厂商就只需“一站式”地适配MoMA协议就能轻松地接入了中国移动覆盖全国的巨大的算力网络和模型的生态，从而大幅地降低了多平台的适配成本。

三、推理引擎的硬件级优化：从算子调优到机密计算

而MoMA的最大优势也正体现在对推理引擎的“向下兼容”的硬件优化上，对于那些一路跟随了推理引擎的发展又对底层的实现又有着深入的理解的工程师群体来说，MoMA的这种“向下兼容”的优化无疑将会带来极大的便利性。

凭借对MoMA的深度的调优算子、将国产的多核的CPU的适配、将PD的异构的计算的分离、对KV的缓存的池化等一系列的技术的完善的应用，我们最终实现了对系统的吞吐量的再次的20%的的提升、时延的降低了40%、同时也将成本降低了30%。其中：

随MoMA的国产多芯的适配的推出，也意味着MoMA的推理引擎已经初步完成了对国产的GPU/NPU（如摩尔线程、华为昇腾等）的适配，这对国内的AI芯片的生态的发展都具有了重要的验证意义

通过将PD的异构分离的Prefill（预填充）和Decode（解码）两大阶段分别在不同的硬件资源上实现，大大提升了了大模型的推理的硬件的利用率等方面都得到了较好的优化

基于对KV的缓存池化的优化，将模型的推理过程中的KV的缓存从模型的实例中彻底的解耦，实现了对KV的跨请求的共享，从而大幅的降低了对显存的占用，对加快了模型的推理速度具有重要的意义。

通过将“机密模型”服务的模型部署在了机密的容器中，并以硬件的隔离技术对计算的过程的数据的安全性做到“可用不可见”，MoMA对数据的安全性也再次得到了保证。依托于对全链路的从芯片到应用的机密计算的覆盖，对政务、金融等数据安全要求较高的场所都能提供一道硬的、可靠的、不可篡改的“防护之门”。以TEE（可信的执行环境）、机密计算的芯片等方向的从业者为例，MoMA的这一实践就为其带来了宝贵的产业落地的验证和实践的案例.。

四、智能路由引擎：AI时代的“控制面”

以MoMA的智能路由引擎为核心的全方位的调度能力为整个平台的高效稳定运作提供了坚实的保证。凭借对用户的动态需求的深入的自动分析，灵活地切换“以成本为先”、“以效果为先”“以均衡为先”的三种策略为用户动态匹配最适合的模型。

借助对通信网络的路由选路的深度挖掘和巧妙的“翻转”，将其一一对应地映射到了AI的计算领域，赋予了AI的计算中了“路由”的先见之明。凭借对模型的超时、限流或故障的智能自动切换， PLATFORM都能在秒级内将业务的切换实现到位，从而确保了业务的连续不中断。其高可用性设计就如同对电信级网络的“99.999%的可靠性”要求一样的严苛和高尚。

依托于对智能路由的长尾模型的精准的资源调度，不仅能将单位的Token成本压降约30%，而且可将资源的占用率降低50%以上。通过对资源的精细化的管理和对碎片化的算力的一步步的最大化的利用，实际上也就体现了与数据中心的DPU/IPU的设计思路的异曲同工之妙。

五、通信底座：MoMA如何为AI硬件赋能

但不管我们如何推陈出新地为AI的硬件“添砖加瓦”，最终的核心命题还是要回到“为AI的硬件提供通信底座的支撑”上来。凭借其对当代艺术的独特的收藏、对艺术的深入的研究和对艺术教育的推动，MoMA的价值不仅体现在其庞大的艺术收藏中，还体现在其对当代艺术的独特的收藏理念中，对艺术的深入的研究中，对艺术的推动中以及对艺术教育的推动中

维度一：算力网的“总线”功能

凭借对算力底座的全方位布局，中国移动便以GW级的高性能的AI数据中心（AIDC）为基石，创新了了“方舱化、液冷一体化”的建设标准，将1500个边缘的智算中心都升级了，通过对“算网大脑4.0”的实现又将分钟级的跨域的调度模型与智能体相结合，日均的调度Token的量就达到了百万亿级。以MoMA这套超大规模的算力网络为“操作系统”，就可以将全国的异构的算力资源都统一地像一台台的计算机一样被调用起来。

维度二：硬件生态的“适配层”

MoMA的不断迭代之际，最新推出的MobileClaw的移动版智能体框架就以其“开箱即用”、“软硬一体”的完美的适配性，深得广大用户的青睐，目前已内置了150余种的行业的Skills，对广大用户的工作生活都带来了极大的便利性和价值。这样就可以将MoMA的模型服务能力通过对AI硬件终端的如边缘推理盒子、AI PC、智能网关等的快速的集成，赋予了它们以云端的智能，从而真正的打通了AI的落地的“最后一公里”。

维度三：从芯片到应用的全栈支撑

采用对MoMA的多个代表性应用的成功实践手段，充分印证了其所倡导的“以人为本、以人为先”的技术理念的可行性。借助将“灵犀”智能体2.0的基石——基于复杂的任务拆解与智能的流程编排的多智能体的决策系统的巧妙的构建，中国移动的“灵犀”智能体2.0就实现了从单一的决策系统向具有更强的自主性、更高的智能的多智能体的决策系统的跨越，从而为办公、通信、出行等多元化的场景的精准的调度开辟了了新的思路和途径。随MoMA引擎的不断迭代升级，我们已将其对九天大模型的支持推至按需的可调式的“九天大模型”、“多款业界开源的大模型”及各类的专家级智能体的可调式的“按需调用”，同时在代码的生成等一系列的任务中也取得了惊人的130%以上的速度的提升。

六、产业影响与工程师启示

凭借MoMA的发布，对电子半导体的从业者而言不仅仅是对新一轮的激进的技术变革的预警，也对其所带来的机遇和挑战都给出了清晰的信号：将要来临的将会是一个怎样的市场格局？将会有怎样的竞争格局？将会有怎样的发展趋势？都给我们了清晰的指引和方向！

伴随AI芯片的不断发展，其带来的竞争的维度也逐渐从传统的性能、功耗等单一的指标的竞争向更高的层面——如专注性、智能性、可靠性等更高的综合性竞争转变了。以往的芯片的价值往往就体现在其所能带来的峰值的算力（TOPS）以及相应的能效比上。随MoMA等“算力调度平台”的广泛推广，芯片的可调度性、多租户的支持能力、对机密计算的兼容性等也将成为同等重要的评价指标。而你的AI加速卡若不能被平台的调度高效地绽放出其本身的最大算力，那再高的理论的算力也就只能沦为无形的虚无了。

云计算、大数据、人工智能等新一代信息技术的迅猛发展同时，“通算智”一体化的趋势不仅已不可逆转，而且将越来越趋于“融为一体”。借助对通信、算力、智能三大主业的并行推进，中国移动最终的底层逻辑就是：以5G/6G的网络为基础的提供了低时延、高可靠的连接的管道，然后再基于这一的基础上再将算力网络的分布式的计算的资源都给大家都用上去，然后再在二者之上的基础上就将MoMA这一个智能的调度层就给大家都用上去。这也意味着我们的团队就要提前将与AI的调度协议的兼容性考虑进来，才能更好的把产品的前景推向更远的未来。

随着Token的不断演进，其可能将会演变为一代又一代的“数字通货”。借助对Token的集约化的运营模式的不断的探索和实践，MoMA最终实现了对流式的实时的计费、对全流程的可追溯的审计、对全链路的指标的观测等一系列的高效的管理，极大的提高了工作效率，降低了对Token的操作的成本。借助这一机制，将原本仅以纯粹的技术概念存在的Token,推向了可被精准的计量、可被广泛的交易的产业的行列.。在AI的逐步发展背景下，未来的AI算力采购、分配、甚至结算都可能都以“Token”的形式对外呈现，而这就对硬件的设计提出了更高的要求，也就意味着硬件的设计将需要如何更好的支持起到精确的Token级的计费和监控等功能。

结语

由此可见，MoMA的背后就隐隐蕴涵了对AI时代的基础设施角色的深层次的重新定义。凭借将本质上相互独立的“模型”和“硬件”打通融合起来，我们真正的造的不是一个模型,而是一整套能让所有的模型和硬件都能更好的协同工作的“神经系统”。正当业界还在不断追逐更大的模型参数的基础上，中国移动却率先将目光投向了更具长远的价值的方向——以成为连接一切的AI生产要素的数字底座。

而不如我们更务实的思考：如何将我手中的这套硬件更好地融入到未来的AI通信的底座中去？。这样看来，只有那些能“被调度”得当的才真正能被这由MoMA们定义的接口的AI所真正的“利用”起来。但在此过程中，却也孕育了像"d.zzmax.cn"这样的专注于大模型的运营效率的优化的专业的平台为产业的上下游所带来的又一不可或缺的工具的支撑，它们也正是MoMA这类宏大基础的基础设施在落地的执行层的有力的一道补充，让每一位对AI的产业化都充满了热情的技术人员都不能不对其保持着深入的跟进。

根据中国移动近期的2026移动云大会的相关公开信息以及业界的纷纷报道，我们对其所带来的技术的各个细节也逐一以最官方的态度予以了披露。