2026,会是AI-Token的爆发之年,会有更多的企业进入这个行业。与此同时,很多智算中心,也会向AI工厂(Token生产)转型。之前有一些朋友认为,AI-Token的核心竞争力在于客户关系,经过几个月的市场摸底之后大家的观点逐渐趋同,AI-Token的核心竞争力只有一个:价格。AI-Token跟CDN很像,产品足够标准,客户粘性较低,价格敏感。如果AI-Token的核心竞争力为价格,那么势必陷入内卷,这显然不是一个美好的未来。那么,更美好的未来该如何发展?本篇文章,想从技术角度,以AI-Token为切入点,聊聊算力的性能和成本优化。
1 AI-Token的爆发式增长和庞大市场规模
AI-Token的市场规模增长很快,正在以每年10倍以上的速度在增长。根据2025年6月的融资新闻显示,OpenRouter在2025年5月的月度推理支出已经超过了 1亿美元。这一数据相比2024年10月的1000万美元月支出,在短短7个月内增长了10倍,显示出其业务量的爆发式增长。(推理支出指的是OpenRouter支付给底层模型提供商,如OpenAI、Anthropic等,的费用,虽然不是直接的营收,但它通常与公司业务规模和客户流量成正比。)另一组数据:截至2025年9月,豆包大模型日均处理30万亿Tokens,相比2024年5月首次推出时增长了253倍。
到2030年,预计全球云计算市场规模近2.4万亿美元,中国云计算市场超5万亿RMB。云计算市场,智算云占90%;智算云市场,推理服务占90%;Token即为规模化部署的大模型推理服务,因此,推理服务市场AI-Token服务占90%。也因此,到2030年,AI-Token市场至少会超过3万亿。
2 AI工厂的成本优化
AI-Token是非常标准的产品。虽然有不同的模型可供用户选择,但同一种模型的价格是非常标准且用户对价格是极度敏感的。如果您的Token比别人贵1%,客户会毫不犹豫的立刻迁走。这样,AI-Token的核心竞争力就不言而明了,只有一个:价格。
对第三方AI工厂来说,目前能部署的只有开源模型。从上图openrouter的分享报告看来,开源模型的流量占比,目前大概有30%左右。这是第三方AI工厂目前可以争取的市场。我们相信,随着大模型越来越成熟,开源模型和闭源模型的差距会越来越少。再叠加开源模型本身的优势,开源模型市场份额继续增长甚至反超也是有可能的。AI工厂,最关键的是优化成本。相比模型训练,AI-Token业务模式对硬件基础设施的要求大幅度降低。这样在AI基础设施方面,就会有非常大的优化空间,例如:
- AI工厂,对智算中心规模要求不高,通过算力动态调度,寻找闲置的价格较低的算力,用于Token生产。各地小规模的风光水电资源可以得到充分的利用,从而可以有更低价格的电力用于生产AI-Token。通常情况下,智算中心需要两路市电确保供电安全,并且需要配备柴油发电机作为备份,同时还需要配备UPS电源和大量的电池。这些都是非常大的成本。AI工厂,对智算中心的可靠性和可用性要求降低,这些冗余的供电要求可以酌情降低,从而显著的降低Token算力的成本。采用二手服务器等设备,大幅度降低设备成本。还有很多可以降低成本的手段,这里无法一一列举。
3 技术驱动AI-Token的成本优化
成本优化,核心还在计算本身。通过计算技术的手段,来大幅度提升性能(算力)和降低成本。相比智算云的数百个产品,AI工厂仅有一项产品,即Token服务(AI推理服务)。这样,Token的技术优化,相比智算云来说,其难度和工作量已经大幅度下降,这给了很多中小企业一个很好的机会。依据技术的深入程度,我们可以把优化方法分为三层:
- 层次一,软件优化;层次二,软硬件协同优化;层次三,芯片架构和微架构优化。
3.1 层次一,软件优化
我们以Deepseek为例。DeepSeek在模型性能和成本控制方面的突破,并非依赖单一技术,而是通过一系列软硬件协同的深度优化实现的。其核心思路是在维持模型性能的同时,从架构设计、软件框架、硬件利用三个层面系统性削减资源消耗。Deepseek的优化主要表现为:
- 内存效率。KV缓存庞大,长文本处理显存压力巨大。Deepseek通过MLA技术,将KV缓存压缩为潜在向量,每Token仅需70KB,为传统方法的1/7到1/4。计算效率。稠密模型计算成本高,MoE模型通信开销大。DeepSeek-MoE:671B总参数中,每次推理仅激活约37B参数,大幅减少计算量。配合FP8低精度训练,训练成本降低50%。推理速度。自回归解码,每次只能生成一个Token,存在瓶颈。多Token预测 (MTP):并行预测多个候选Token,验证后接受,实测将生成速度提升1.8倍。通信瓶颈。大规模训练时,节点间通信延迟成为主要瓶颈。节点受限路由以及DeepEP通信库:优化MoE的专家路由策略,结合FP8低精度通信与RDMA,降低跨节点通信延迟。部署成本。依赖高端GPU集群(如A100/H100),硬件成本高昂。量化与异构计算:通过INT8/FP4量化、CPU+GPU混合计算等,可将671B模型部署成本降至传统A100方案的约1/5。
3.2 层次二,软硬件协同优化
软硬件协同优化,主要强调的是把计算任务从CPU卸载到GPU和各类专用处理器,或者从GPU卸载到专用处理器。
这里我们不仅仅考虑Token,而是考虑更加全面的加速计算软硬件协同优化。处理器资源池包括:CPU、GPU、X-AIPU、X-DSA、HPN、IO-DSA。X代表具体的领域/行业;X-AIPU,指的是面向领域/行业特色大模型的AI加速器;X-DSA,指的是面向领域/行业特色的加速器;IO-DSA,指的是I/O类任务处理的加速器。行业全面进入加速计算时代,可以进行的优化有:
- 优化一:随着领域/行业大模型的成熟,大模型加速逐渐从GPU切换到更加高效低成本的X-AIPU。优化二:领域/行业中其他性能敏感算法,从CPU、GPU中卸载到专用的X-DSA加速。优化三:高HPN大带宽低延迟,但也高成本;包括各类I/O类计算任务,都可以通过DPU等专用的I/O-DSA加速器进行加速。优化四:从NVIDIA GPU优化到国产GPU,可以进一步优化成本。
通过上述加速优化,可以把CPU通用计算或单异构计算,优化到多异构计算。可以实现同成本情况下,性能的大幅度提升以及成本的大幅度下降。
3.3 层次三,芯片优化
芯片优化,主要有两个方面:
1.专用于AI的加速处理器,AIPU。典型的如谷歌的TPU,华为的昇腾。相比GPU,AIPU具有更高的计算效率,因此这是目前性能和成本优化的重要手段。这种办法,通常不改变现有服务器架构,仅更换加速卡即可,门槛较低。
2.整合Token相关计算的Token专用SOC。这是未来3-5年的重要发展趋势。一方面,Token对硬件的稳定性等各方面的要求大幅度下降,且核心能力也仅有一个(Token,AI推理),这样Token专用芯片的开发难度就相对不高。另一方面,Token的规模足够巨大,值得面向Token业务“定制”开发专用的处理器,从而极限的降低Token的成本。专用SOC的办法,需要专门定制的主板和设备,门槛要更高一些。
1573