• 正文
  • 相关推荐
申请入驻 产业图谱

从智算中心转型AI工厂:Token模式的六大优势

12/16 10:38
516
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

算力界一直在努力的推进算力标准计量的工作,希望能够像电力的度数(千瓦时)一样,但进展并不是很顺利,原因就在于算力很难标准化,大家对算力标准化工作的认可度也很低。而Token模式,换了一种方式,更有效地实现了算力的标准计量。

随着Token模式的兴起,许多智算中心开始向AI工厂(Token生产)转型。未来3-5年,AI工厂很有可能取代智算中心,成为智算基础设施的主流形态。

这篇文章,我们主要通过分析Token相对于算力的对比优势,来阐述为什么Token模式是未来智算发展的主流模式。

1 智算中心和AI工厂简述

智算中心是,面向AI应用,提供强大算力、数据和算法服务的关键基础设施;智算中心是AI时代智算算力的核心生产和供应中心,用于支持大模型训练、推理和各种AI业务应用。智算中心的输出产品为“算力”。

AI工厂,其本质是一个极致简单的公有智算云平台,只提供模型推理服务,而模型推理服务的计费单位为Token。通俗易懂的讲,AI工厂负责将算力加工成Token,“算力”为输入的原材料,“模型”为生产线,“Token”为输出的产品。

在智算产业链上,AI工厂是智算中心的下游环节。

2 Token vs算力的优势

2.1 Token模式计费相对标准

算力很难标准化,在于服务器设备的型号规格各有不同,每家的芯片架构都不一样,生态强弱不一样,以及实际不同芯片架构的服务器的算力利用率也不一样,等等。影响算力的因素太多了,并且很难量化,大家对各种所谓的算力标准计量的认可度也不高,所以一直以来,算力标准化的事情很难大范围推广。

Token是大规模部署的模型推理的计费单位。同一种模型,计费标准完全一样;同一类模型,计费标准也基本差不多。这样,在性能、延迟和稳定性等方面满足基本要求的情况下,Token的价格基本上就成了评判模型的唯一标准。

从实践来看,Token计费模式已经得到了广大用户的认可。目前Token业务在以每年10倍的速度在快速增长,今年(2025)仅国内市场会突破100亿,明年预计会突破一千亿。

2.2 Token模式计费更加细粒度

裸机算力的租赁,单机就要数万每月,并且智算中心希望客户能够签署3-5年闭口协议。在AI发展一日千里的现在,能签署如此长期合同的客户非常的少,要么是大厂,要么是国企。同时,仅一台机器的费用就要数百万的合同额。这对更广大的中小微企业非常不友好。

基于虚机或容器的GPU服务,可以做到单GPU甚至vGPU的弹性切分,并且还可以按时、按天、按月和按年等灵活计费。基于虚机或容器的GPU服务,单笔订单最小可以做到数百块钱,对中小企业相对友好。但这种模式,其粒度仍然不够细。

Token模式,其计费粒度要更细粒度。我们以Deepseek为例,目前其Deepseek问答的计费是百万Token输出为3块钱,这意味着,用户使用一次Deepseek模型,费用大约在0.005元(半分钱)左右。

更细的粒度,意味着更高的灵活度和更低的门槛,更符合中小微企业的需求。当然了,同时也符合大型和超大型企业的需求。

2.3 Token模式瞬时响应

算力租赁,因为其粒度的原因,通常是一个比较大的单子,非常考验双方的信任程度,因此通常交易双方需要线下考察机房,然后你来我往的谈合同条款等等,紧接着支付和交付后才完成成交,整个过程大概需要1-2个月的时间。

而Token模式是serverless服务,使用非常简单,客户可以做到随取随用。计费方式,也可以灵活多样。

2.4 Token模式的高利用率和低成本

当客户购买算力以后,算力归用户独占。从宏观看,很多算力孤岛,算力利用率非常低。这样,算力的价值没有完全发挥出来,存在非常大的浪费。这样,高昂的算力成本就会成为用户非常大的负担。

而Token模式,是众多客户共享的统一的Token服务。通过平台专业化的软硬件技术调优,可以实现统一算力集群的极致性能优化和算力利用率,从而实现同等算力情况下单位时间产生更多的Token,反向的则表现为Token的更低成本。

Serverless部署的Token服务,还可以通过:一方面支持M种多元异构算力共池统一调度,另一方面实现N种模型Token的统一编排,从而进一步实现更高层级的资源共享和利用率提升,从而进一步优化Token的成本。

2.5 Token模式更靠近客户和场景

算力->算力服务->模型和数据->业务解决方案->业务应用。智算中心提供的是算力,距离最终的业务相对较远;而Token服务提供的是模型能力,距离业务要更近一些。

智算中心,由于距离业务较远,在整个链条里,缺乏议价权,从而导致利润率较低。

而生产Token的AI工厂,本身就是平台,跳过了公有智算云,可以非常简单方便的直接为最终的算力使用方提供服务。从而在整个智算链条里,拥有了相对更高的议价能力。

2.6 Token模式,客户仅为结果付费

企业要从智算中心租赁算力的时候,需要预估未来一定时期内的算力需求。这里就存在很多不确定性,以及资源的闲置浪费。本质上客户是在为资源付费,至于这些资源能否被充分利用,能否产生实际的价值,还有非常大的不确定性。

而Token模式,更多的是面向客户业务已经稳定且规模化之后(从1到100)。客户只需要为自己实际产生价值的那部分算力(或算力封装的Token)付费。这样,客户的接受度也更高。

3 结论

综合上述各方面的原因,最终的AI企业,对Token模式的接受度会更高。这就意味着,未来会存在更多的AI工厂来把算力变成Token。

AI工厂可以是一个独立的平台,也可能是一个大平台的一个或一类独立的产品服务(AI工厂服务即Token服务)。

毋庸置疑的是,AI工厂,会逐渐取代智算中心,成为企业客户的主要选择。

而区别只在于,AI工厂是哪一类背景的公司来经营的:是传统公有云提供的AI工厂服务?或者智算中心延伸的AI工厂服务?还是创新的AI-Infra公司提供的AI工厂服务?

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

公众号:软硬件融合;CPU灵活性好但性能较差,ASIC性能极致但灵活性差,鱼和熊掌如何兼得,同时兼顾性能和灵活性,我给出的方案是“软硬件融合”。软硬件融合不是说要软硬件紧耦合,相反,是要权衡在不同层次和粒度解耦之后,再更加充分的协同。