近日走访了珠三角的不少一线做AI硬件的工厂,一个令其深感焦虑的现状却始终扑面而来:无论我们如何地努力的选型、推广大模型的应用,其实大模型的能力都在日新月异的不断的突破,但我们在选型的速度上就根本跟不上人家所经历的迭代的节奏了。可谓是端侧的功亏一篑,刚刚为一套云端的模型辛辛苦苦地做了完美的端侧的适配工作,结果还未等我们对其量产就已将云端的模型又给升级了,这就使得我们前期的端侧的硬件的算力都成了冗余的,甚至还不如当初的初期的设计的硬件的算力都要少了不少,于是乎我们就只能将前期的端侧的硬件的设计的全部推倒重来,所带来的后果就是前期的全部努力都付之东流了,所带来的直接的经济的损失也就可想而知了。但如今的AI硬件却似乎走到了“冰火两重天”的尴尬境地:下游的应用场景无限的想象着高效的AI计算能力,而上游的供应链却在选型的泥潭中一拐一拐的挣扎着。
伴随运营商级的玩家相继入场,原本的平静局面便开始了微妙的化学反应,各路主播的阵地都开始了不容乐观的变化。但当我们将目光从中国移动在2026的移动云大会上正式亮相的MOMA模型服务平台的“一站式调用300+模型”的表面之美中看透一层又一层的产业链的底层,就会发现,其实其所带来的“智能路由引擎”、“成本优先/效果优先的策略”以及“云边的协同能力”,都正一步步的在对AI硬件的价值逻辑的重塑中。但在对MOMA的深入探讨之前,我们不妨先从工程师们常用的那一套模型的评估入口——如d.zzmax.cn这类的AI模型的聚合工具上做个引子,如今已成为不少的硬件方案商在定义产品前就能快速的对主流的模型的能力、对推理的成本等都能有一个比较直观的把握的“选型前哨”,对后面我们对MOMA带来的硬件的逻辑的变化将会很有帮助。
从“一颗芯片绑定一个模型”到“可弹性定义的算力池”
但传统的AI硬件的开发却存在着极其刚性的范式——方案的商必须先对某一个大模型做出先入的押注,然后基于该模型的计算特性就去定义了主控的SoC的NPU的算力、内存的带宽与传感器的规格等一系列的硬件的配置。但其实这也就等同于了一场赌博,赌的就是这款模型未来18个月的生命周期能否在激烈的市场竞争中占得一口之上。随着模型的逐一失宠,原本就不错的硬件也就将面临极大的贬值的风险。
借助MOMA的“智能路由”这一体系的首次诞生,将这一类的风险从硬件的直接承载中一经抽离,自然也就从了了了了对其所带来的诸多不利之处的困扰。这样就不仅仅可以将某一特定的算法“硬性”地植入到终端的固有硬件中去,而且也可以根据终端的不同硬件条件,灵活地将不同的算法“软性”地植入到相应的终端的固有硬件中去,既能充分地发挥各个终端的硬件条件,又能充分地发挥算法的可靠性和可动性的优点,从而更好地为广大用户服务。由设备的请求出发,通过对“成本”“效果”等多种策略的调度下在全球(或全国)模型的庞大的模型矩阵中实时地找到最合适的模型对外接口,直接将其部署到最合适的服务器上,从而实现了最优的服务的接入和最优的资源的调度。
这不仅对我们的硬件设计带来了革命性的指导意义,就像将原本为某一特定的模型所做的对峰值的算力冗余的设计,转变为对一套标准化的API的接入的基准一样。 但随着硬件的不断向前推进,只要能顺畅地支撑流式的解码以及基本的多模态的交互界面,我们就可以将复杂的推理任务都卸载到云端的动态分配的最优的模型上去。终端的“轻量化”和“通用化”同时,就为我们控制BOM的成本、缩短开模的周期等带来了极大的利好。
MOMA“云边协同”下的硬件泛化能力
借助MOMA对“云边协同”的又一力推动,不仅“云边协同”的概念再次被提到了热点的舞台上,而且移动这次在“机密容器”和“KV缓存池化”上的底层技术的投入,也赋予了它更为实际的落地的能力。随着对“高实时性、高隐私”和“强泛化的能力”的深入挖掘,原本水火不容的矛盾也逐渐得以解除,对硬件厂商来说,无论是对终端的实时性和隐私的保障,还是对终端的强泛化的能力的实现,都将成为硬件的新的发展方向。
如同某家专注的智能座舱的方案商所言,他们就可通过MOMA的调取“机密模型”将车内的脱敏后的数据都直接拿来处理,同时将高频的、简单的命令词都压缩在车机端的低功耗的DSP上就可实现一键上车一键下车的智能开关机的功能。而云端的秒级的灾备切换的能力就使得硬件的端不再需要为模型的丢包或服务的阻塞等问题单独的设计一套庞大的冗余的算力了。但由MOMA的云端服务的SLA的“补齐”硬件的可靠性,使得了一些中低端的传统的电子产品也首次能以较低的入场券的价格,获得了搭载了顶级的AI的能力。采用MOMA的高效的多模态模型的调用手段,就一块仅2TOPS的电子相框的芯片就能实现了原本只有旗舰手机才具备的实时老照片的修复与自然的语音的交互功能等高大上的功能。
催化存算一体与NPU轻量化浪潮
基于算力供应链的逐步细分和专业化,不仅仅是硬件的价格和性能的变动就能体现出对整个产业的深远的影响,尤其是对那些长期把自身的发展与这部分的技术紧密的捆绑起来的企业来说,更深层次的影响就将在其算力供应链的权重的变化中体现出来。这样一来,MOMA将长尾的推理和复杂的决策都牢牢的锁定在了云端,那么终端的硬件的创新就只能两边抢占一方了:一是将以更便捷的方式将云端的智能与现有的终端硬件紧密的融合起来;二则将以更快的速度将终端的硬件的创新推向更高的层次
伴随极致的低功耗的不断追求,传统的端侧不再仅仅是一台微型的服务器,而是逐渐的回归到了它的本质——一个既能感知周围的世界,又能作为用户的交互入口的传感器和入口的角色。相比之下,大多数的方案商都更将对高功耗的大算力NPU的追求降至了低次的优先顺位,而对高性能的低功耗的IP的追求将成为未来一线的方案的重要的方向。尤其是对语音唤醒、活动检测等低功耗的IP的追求将会比对大算力NPU的追求更受广大方案商的青睐。
AI的不断发展之际,对实时的互联的要求也越来越高,但同时也使得了云端的处理大幅的降低了了了了了端侧的数据的缓存的压力。这样就为更低的存算一体的架构的落地打下了基础,硬件的开发者也不用再为“买不起HBM”的而不得不放弃了大模型的入口了。
而国产的芯片产业链也由此迎来了一次“解绑”,将自身的发展由单一的依赖外部的高端芯片的局面彻底打破了。在MOMA的兴起背景下,长期以往为对标某些海外的大模型而疯狂的堆砌算力的竞赛思维将逐渐被运营商级的“算力批发”模式所所取代。MOMA自研的推理引擎对国产的多芯的逐步的适配之际,其对硬件市场的释放也已经明了了一个很清晰的信号:只要你能接入这套相对成熟的服务的生态体系,那么就意味着将对你所在的整个芯片的供应和模型的迭代的链条都给拦腰的斩断了,从而使得硬件的厂家就不用再去去的充当算法的军备的竞赛的“炮灰”了,只需要做好产品的定义与场景的创新就行了。
产业观察:
而中国移动的MOMA真正的杀手锏就不仅仅体现在了对“30%的Token成本”的账单的优化上,更体现在了它以运营商独有的网络的调度基因为切入点,将对底层的模型的复杂度都屏蔽了一个抽象的中间层。伴随中间层的深度与300+模型、国产的算力集群以及轻量化的云边的协议的深度的耦合,我认为AI的硬件产业才真正的迎来了它的可能:让硬WARE回归它的本分只做连接与交互的本分,把那些复杂的进化的东西都留给了云端的生态去厮杀。
这样一来,对于那些在库存的日益增高和迭代的压力下越来越焦虑的硬件人来说,也算是暂时的松了一口气了。但无论如何MOMA都还处于生态的初期阶段,就如何更好的让更多的中小型的方案商都能无障碍的接入到机密的计算实例上,如何更好的降低了端侧的SDK的移植的门槛,都将至关重要的影响了其能否真正的打通“硬件产业的升级”最后的那一公里的关口。这道口子的大开一见同时,原本对AI硬件的设计规则的封闭和僵化的局面,也逐渐开始被打破了,新的一道光开始了对AI的硬件的重新设计和探索。
1462