引言
很多Token转发平台,计费比较简单。虽号称在官方价格打了很大折扣,但实际费用可能比模型官方还要多。这是怎么回事?是计费的问题?还是计费规则的问题?
今天这篇文章,我们来聊聊Token计费的话题。
1 AI的计费单位,Token
要理解计费,先得搞清楚Token是什么。
简单来说,Token是大语言模型处理文本的最小单位。它不是单词,也不完全是字符,而是介于两者之间的“语义碎片”。一个英文单词通常对应1-2个Token,而一个中文字通常对应1-3个Token。
为什么AI要用Token来计费?因为模型的计算量本质上取决于处理的Token数量,而不是字数或请求次数。一段1000字的文章和另一段1000字的文章,在Token数上可能相差两三倍。按字数收费不公平,按请求次数收费更不合理(一次请求可能处理一万字,也可能只处理十个字),所以Token就成了最科学的计费单位。
行业里通常用“每百万Token多少钱”来标价。比如GPT-4o,输入价格是每百万Token 5美元,输出价格是每百万Token 15美元。国产模型比如DeepSeek-V3,输入价格每百万Token 1元人民币,输出每百万Token 2元人民币。
2 Token计费的问题在哪里?
2.1 计费的猫腻
模型实际处理的Token数,和平台最终向你收费的Token数,可能并不相同。这里面涉及到一个关键动作:Token的统计口径。
正常的统计口径是什么?就是你发送给API的文本,经过模型官方的Tokenizer(分词器)处理后得出的Token数量。但当你的请求经过转发平台时,平台能不能准确地知道你的文本对应多少Token?如果能严格使用模型官方Tokenizer,那就能准确统计。如果做不到呢?那就可能出现偏差。
很多转发平台宣传“官方价格三折”、“全网最低五折”,看起来很诱人。但当你实际使用后算总账,发现并没有省那么多,甚至更贵了。为什么?这里面有三种常见操作。
第一种,在多模态计费上做手脚
现在很多模型支持图片输入,比如GPT-4o、Claude 3.5 Sonnet。当你上传一张图片时,模型看到的不是像素,而是经过视觉编码器处理后的特征。不同尺寸、不同分辨率的图片,消耗的Token数量完全不同。
以GPT-4o为例,一张1024x1024的高分辨率图片,官方规定的计费方式是:先切成多个小块(tile),每个tile固定计85个Token,再加上基础85个Token。最终一张高清大图可能消耗1000多甚至数千个Token。
但有些转发平台的计费算法没这么精细。它们可能粗暴地按图片文件大小来估算Token,或者用一个固定值来替代。一张实际消耗800 Token的图片,平台可能估算成500 Token(吸引你多用),也可能估算成1200 Token(多收钱)。无论多或少,都偏离了官方标准。
第二种,在长文本处理上模糊计费
现在的模型上下文窗口越来越长,动辄128K、200K甚至百万Token。但长文本的处理成本不是线性的。以Claude为例,当上下文超过一定长度后,模型需要更复杂的注意力计算,官方的计费也会有相应的调整规则。
有些转发平台为了计费简单,长文本也按短文本的单价来算,表面上看单价没变,但实际上它们可能在输入的Token统计口径上做了放大处理。比如你输入了10万Token的文档,官方Tokenizer统计出来是10万,但平台的统计口径可能算出12万甚至15万。多出来的这几万Token,就是纯利润。
第三种,在系统消息和工具调用上重复计费
每次API请求,除了你主动输入的内容,通常还包含系统提示词(System Prompt)、函数定义(Function Definitions)、历史对话记录等。这些内容都会占用Token。
官方API的计费方式是:本次请求中所有的内容(包括系统提示词、用户消息、助手历史回复、工具调用结果等)全部参与Token统计,算出一个总数,然后乘以单价。
但有些平台的做法是,对系统提示词和工具定义做“额外加权”。比如系统提示词虽然只有200 Token,但平台按1.5倍计算,收你300 Token的费用。理由是“系统提示词的处理优先级更高,消耗更多算力”。这种说法在技术上站不住脚,但在商业上,每笔请求多收一点点,日积月累就是可观的数字。
2.2 计费规则的猫腻
比计费数字更隐蔽的,是计费规则本身的猫腻。
最典型的问题出在“输出Token”的统计上。当你调用流式输出(Streaming)时,模型是一点点吐出内容的。有些平台会在流式传输过程中出现统计偏差,比如一个Token被拆成多个数据包传输,在统计时被重复计数。
还有一种情况是“思考链”的处理。以OpenAI的o1系列模型为代表,模型在给出最终答案前会先进行内部推理,生成大量的“思考Token”。这些思考Token用户看不见,但模型确实生成了,官方会对其收费。问题是,不同模型对思考Token的定价策略不同:有的模型思考Token按输出价计,有的有专门折扣,有的甚至对部分思考Token免费。
如果转发平台不区分这些细节,统一按最高标准收费,那用户就吃亏了。比如o1-preview,官方对不可见的思考Token有单独的低价策略,但某些平台全部按可见的输出Token价格来算,中间的差价就进了平台口袋。
更隐蔽的是“计费颗粒度”问题。官方计费通常精确到个位数Token,但有些平台会设置“最小计费单元”。比如不足100 Token按100 Token算,不足1K按1K算。对于大量短请求的场景(比如对话机器人),这种计费方式会导致实际费用远高于预期。
举个例子,你的应用每次请求只消耗80 Token的输入和30 Token的输出,如果平台的最小计费单元是100 Token,那每次请求的实际计费就是200 Token(输入输出各算100),比真实消耗多了近一倍。如果你的应用每天有百万次短请求,这个差额就非常惊人了。
2.3 计费的组成
一次API请求的计费到底由哪些部分组成?以一次标准的聊天请求为例,假设你使用了系统提示词、发送了一条用户消息(包含一段文字和一张图片)、并得到了模型的回复。这次请求的计费组成如下:
输入Token计费:包括系统提示词的Token数、用户消息文本的Token数、图片经过视觉编码后的Token数(与图片尺寸、分辨率、分块策略相关)、历史对话轮次的Token数(如有)、工具定义的Token数(如有)。
输出Token计费:包括模型生成的所有文本Token(包括可见内容和不可见的思考内容)、工具调用过程中生成的Token(如有)、流式输出中的所有Token。
其他可能的计费项:某些模型的“推理深度”附加费(如o1系列的reasoning_tokens)、超出免费速率限制后的额外费用、特定功能的附加费用(如联网搜索、代码解释器等)。
总结一下,复杂的模型计费类型目前主要有如下四种:
首先,是输入、输出计费,这是最简单的计费;
其实,是阶梯计费,根据上下文大小,Token单价不一样;
再次,是开关计费,某个功能开关打开或关闭,Token单价不一样;
最后,是工具计费,调用工具,额外计算费用,相当于模型里的子模型。
一个负责任的聚合平台,应该精确还原官方对以上每一项的计费逻辑。但现实中,很多平台做不到这一点,于是就有了各种“简化版”的计费方案。简化本身不是问题,问题是简化带来的偏差,最终该由谁来承担?
3 Token计费的发展趋势
从目前的发展趋势看,Token计费,正在向两个看似相反的方向发展:简单化和复杂化。
3.1 简单化
简单化的推动力来自市场竞争。
随着越来越多模型厂商入局,价格战愈演愈烈。DeepSeek-V3的发布把国产模型的价格打到了每百万Token一块钱,智谱、通义千问、文心一言纷纷跟进降价。在这种环境下,模型厂商希望计费规则越简单越好,让用户一眼就能看懂成本。
于是我们看到了一些趋势:
输入输出统一价格(不再区分,一个价);
取消高峰期溢价(任何时段调用都是统一价);
上下文长度不再影响单价(长短文本一个价);
多模态统一Token计费(图片视频音频都折算成Token)。
这些简化措施降低了用户的理解成本,也有利于模型厂商的市场推广。对于转发平台来说,简单化的计费规则也意味着更低的实现复杂度。
但简单化也有代价。统一价格意味着模型厂商需要在定价时预留更大的利润空间,因为高峰期和低谷期的成本差异、长短文本的成本差异、不同模态的成本差异都是客观存在的。统一价格等于是用高利润场景补贴低利润场景,本质上是“交叉补贴”。
3.2 复杂化
与简单化并行的,是计费规则的复杂化。推动力来自模型能力的进化。
随着模型功能越来越丰富,计费场景也越来越多。多模态模型要区分文本Token、图像Token、音频Token、视频Token,每种模态的计费规则都不同。推理模型(如o1系列)引入了“推理Token”的概念,这些Token和普通输出Token的处理成本不同,计费也要分开。Agent模型涉及工具调用,每次工具调用都是一次独立的Token消耗。还有缓存机制,像Claude的Prompt Caching,可以把重复使用的提示词缓存起来,缓存命中的部分按更低价格计费。
这些新能力让计费模型变得异常复杂。一个完整的计费系统,需要同时处理:
不同模态的Token识别和分别计费;
推理Token的识别和单独定价;
缓存命中和未命中的区分计费;
工具调用链中的Token归属;
流式和非流式输出的不同统计方式。
这还只是当前的复杂度。未来,随着多Agent协作、实时视频理解、模型自我纠错等能力的发展,计费规则只会更复杂。
3.3 简单化与复杂化的辩证关系
表面看,简单化和复杂化是矛盾的。但实际上,它们是同一枚硬币的两面。
简单化是对用户呈现的界面,复杂化是底层系统的真实逻辑。就像智能手机,用户看到的是简洁的触屏界面,但底层是极其复杂的芯片、操作系统和通信协议。
对于Token计费来说,理想的状态是:对用户呈现最简单的计费方式(比如统一价格、一目了然的账单),但在系统内部精确追踪每一种资源消耗,确保定价公平合理。这需要强大的技术能力支撑——既要算得准,又要呈现得简单;与此同时,更大的挑战在于,这种“外简内繁”的方式,是否能得到客户的认可。
4 精确计费
4.1 关于计费,我们的观点
在计费这件事上,我们的核心观点非常明确:和模型官方保持一致。
这个观点背后,是一套清晰的逻辑:
简单有简单的道理。模型厂商设计计费规则时,已经充分考虑了成本结构、市场竞争、用户接受度等多方面因素。这套规则是经过反复权衡的结果,有其内在合理性。如果一个转发平台擅自“简化”官方计费规则,无论简化后的价格看起来多低,最终都会在某些场景下产生偏差。而这些偏差,往往对平台有利,对用户不利。
复杂有复杂的道理。当模型厂商为某个功能设计了复杂的计费规则时,通常是因为这个功能的成本结构确实复杂。比如推理Token和普通输出Token的成本差异,是客观存在的技术事实。如果把两者混为一谈统一定价,那要么定价偏高(平台赚了),要么定价偏低(不可持续),都不健康。
我们选择了一条看起来最“笨”的路:官方代表了权威,采取1比1复刻官方计费。官方计费简单,我们也简单。官方计费复杂,我们也复杂。我们要做的不是“创新”一套计费规则,而是“精确还原”官方计费规则。让用户通过我们调用模型,和直接调用官方API,花一样的钱。在我们的计费机制,是在官方价格基础上打一个公开透明的折扣,不多一分,不少一分。
4.2 精确计费
“1比1复刻官方计费”,理念说起来简单,实现起来并不容易。为了真正做到“和官方保持一致”,需要设计一套领先的计费算法。
这套算法的核心思想可以用三个字概括:搭积木。把一次API请求的计费过程分解为若干个独立的“计费单元”,每个计费单元对应一种明确的资源消耗。就像乐高积木,每个积木块都有标准化的接口,可以自由拼接。
具体来说,计费引擎应该包含以下几个层面:
第一层:Token化引擎
为每一个支持的模型配置对应的官方Tokenizer。不是自己实现的“近似”版本,而是直接调用模型厂商提供的Tokenizer接口,或者使用经过严格验证的开源版本(如GPT系列使用tiktoken)。确保输入的文本、图片、音频等所有内容,都能被精确地转换为Token数,和官方统计完全一致。
对于多模态内容,复刻官方的视觉处理流水线。图片进来后,按照模型官方的分块策略进行切分,该是大图模式就按大图算,该是小图模式就按小图算。一个像素都不差。
第二层:分类计费引擎
Token统计完成后,进入分类计费环节。这一层要做的是把不同类型的Token分配到对应的计费类别中。
文本输入Token、图片Token、音频Token、缓存命中Token、系统提示词Token、工具定义Token、推理Token、普通输出Token——每一种都对应一个明确的计费类别。系统中维护了一套可配置的“计费规则矩阵”,每一行对应一个模型的一种计费类别,包含单价、最小计费单位、舍入规则等信息。
这个矩阵的配置完全参照官方文档,支持动态更新。当模型厂商调整定价时,只需要修改对应单元格,不会影响其他模型的计费逻辑。
第三层:组合计费引擎
这是“搭积木”的核心。一次请求产生的各种Token,经过分类后进入组合计费引擎。引擎根据请求的实际特征(是否包含图片、是否命中缓存、是否使用流式输出等),自动选择对应的计费规则组合。
举个例子,一次包含图片的GPT-4o流式请求,引擎会:
把文本输入Token按GPT-4o输入价计算;
把图片Token按GPT-4o图片输入价计算(区分低分辨率和高分辨率);
把输出Token按GPT-4o输出价计算;
所有计费项汇总,按预设折扣计算最终价格。
整个过程对用户完全透明。在账单明细中,用户可以看到每一项Token的数量和对应费用,精确到个位数。
第四层:验证与校准层
最后一层是质量保障。建立一套自动化的计费校验系统,定期用标准测试用例对比计费结果和官方API返回的Token使用量(通过API响应中的usage字段)。如果发现偏差超过阈值(目前设定为0.1%),系统会自动告警,触发人工核查和修正。
这套四层架构的核心优势在于灵活性和精确性的统一。灵活性来自“搭积木”的设计——无论模型厂商推出什么新的计费方式,都可以通过添加新的积木块来适配,不需要推翻重来。精确性来自对官方Tokenizer和计费规则的严格复刻,以及对校验的持续投入。
最终的效果是:官方计费100,我们是6折,那必然计费60。不会多一分,也不会少一分。这不是一个口号,而是由算法和校验机制保障的确定性承诺。
5 矩向AI-Router和“AI店铺”
AI-Router,是矩向开发的一套Token聚合平台软件,支持多语言和跨境支付,面向全球合作伙伴提供相关技术服务。矩向AI-Router支持精确计费,和官方计费保持一致。
“AI店铺”是矩向针对Token聚合伙伴提供的全方位解决方案,除了提供技术支撑之外,还在资源采购和市场销售方面提供协助。
“AI店铺”起步门槛较低,不需要对AI有很深理解(跨行没问题),可以个人创业起步(创业有风险,入场需谨慎)。需要注意的是,“AI店铺”虽起步容易,但要想做大做强,仍需要很强的运营和销售能力。聚合平台只是起点,伙伴需要在商业模式、销售策略、渠道商拓展、生态建设等方面,做出更多的创新。
6 结语
Token计费看起来是个小问题,但它是AI智能体商业化落地的重要基础设施。计费不准确,轻则让用户多花冤枉钱,重则可能让整个AI智能体的商业模型不成立。
Token平台用户关心的是:平台承诺的价格,就是自己实际支付的价格,每一笔账都清清楚楚,每一分钱都明明白白。
选择“精确计费”这条路,不是因为它容易,而是因为它“难却正确”。在AI模型能力日新月异的今天,计费规则的复杂度只会增加不会减少。与其用“简化”来掩盖复杂性,不如用技术来驾驭复杂性,把精确的结果呈现给用户。
647