随着 AI 大模型(LLM)的发展,Token这个词被越来越频繁地提及。无论是咨询报告、发言材料、广告宣传,还是普通人的日常交流,这个诡异的词无孔不入。它仿佛已是 AI 时代的基本概念,含义不言自明。那么,Token 到底指什么?为什么它能成为衡量 AI 工作量的 “货币单位”?下文将逐一拆解说明。 什么是大模型的Token?人类通过整句话、整幅图、整段视频来理解世界,但 AI 模型只能处理离散的数字信息。在支持文本、图像、视频、音频等多种输入格式的多模态大模型中,要让 AI 读懂这些复杂内容,需要先把它们拆解成一个个标准化的片段,这些片段就是 Token。
在大模型的世界里,Token 可以被理解为人工智能处理信息的 “基本原子”,是其处理各类数据的最小单位。
我们先以文本为例,直观解释 Token 的生成过程。
文字本身是现成的离散信息,因此生成 Token 的过程十分直接:大模型通过查找一个固定的 “词表”,把一段文字拆分成一个个最小处理单元(包含标点),这个过程就叫做 “分词”。
对于英文,大模型通常不会按完整单词或单个字母切分,因为单词可以拆分为词根、词缀等更小的元素。比如,单词 "Hamburger"(汉堡包)可能会被切分成 "Ham" 和 "burger" 两个Token。
对于中文,一般会按汉字拆分,“人工智能” 可能被拆分为四个单字,也就是 4 个 Token。在部分词表中,也可能被切分成 “人工” 和 “智能” 两个 Token。
从下图可以看出,豆包 AI 将 “你好,我是无线深海” 这句话切分为了 7 个 Token。
文本的 Token 化逻辑相对直观,而图片等格式的 Token 化过程则没那么好理解。图片的本质是连续的像素阵列,这些像素要怎么变成 Token?
目前最主流的方法是图像分块:大模型会像切蛋糕一样,把一张完整的图片切成许多个小方块(例如 16x16 像素),每个小方块就是一个图像 Token,包含了图片某一局部区域的颜色、纹理和形状信息。
我们同样用豆包的 Token 计算器做个测试:上传一张 620x465 像素的香农照片,豆包按 28x28 像素为一个 Token 切分,最终这张图片的 Token 数量为 368。多模态模型可同时支持图片和文本输入,因此图片 Token 数加文本 Token 数,就是总的 Token 数。
视频则可以看作是 “随时间变化的图片序列”,和图片切出的 2D 小方块不同,视频 Token 切出的是 3D 小数据块(例如:长 16 像素、宽 16 像素、跨越 4 帧画面的小立方体),同时覆盖空间与时间维度的信息。
Token,AI的 “货币单位”?
核心原因很简单:对于某一固定大模型来说,输入与输出的 Token 数量越多,就代表大模型的运算工作量越大,对应的服务成本越高,因此用 Token 作为计价单位合情合理。
但和比特不同,Token 并非全球通用的度量衡,因为不同模型的 Token 切分方式完全不同。它更像是每家 AI 公司自己发行的 “专属代币”,类似游戏厅的游戏币,只能在对应厂商的体系内使用,不同厂商的 Token “购买力” 也存在差异。
这种差异主要来自两个核心原因:
第一,不同公司、不同模型使用的 “分词器” 和 “词表” 截然不同:有的模型词表只有 3 万个词,有的有 10 万个,有的甚至达到 25 万个。词表越大,单个 Token 能包含的字符往往就越多。
第二,不同模型的训练语料偏好不同(尤其是中文等非英语语言)。如果一个分词器的训练语料以英文为主、中文占比很低,那么它对英文的压缩率会极高,一个复杂的英文单词可能仅对应 1 个 Token,而对中文的切分会非常细碎,甚至一个汉字会被切成 2-3 个 Token。
正因为 Token 不是标准化单位,在使用不同大模型时就会产生 “Token 汇率差”。
假设我们要让 AI 处理一段 1000 个汉字的文本:
- 模型 A:对中文支持一般,把 1000 个汉字切成了 2500 个 Token。模型 B:为中文专门优化过词表,把 1000 个汉字只切成了 800 个 Token。
如果模型 A 的定价是 1 元 / 百万 Token,模型 B 的定价是 2 元 / 百万 Token,表面上看模型 A 更便宜,但实际处理这段中文时,模型 A 要收取 2500 个 Token 的费用,而模型 B 只收 800 个 Token 的费用,最终反而是 “单价更贵” 的模型 B 更省钱。
值得一提的是,闭源大模型厂商虽不公开模型内部的神经网络,但都会公开对应的 “分词字典” 和分词算法。每次交互都会明确计算输入 Token、输出 Token、总 Token 数量,相当于给用户提供了清晰的 “购物小票”,保障计费透明。
厂商在宣传 “支持 100 万 Token 上下文” 时,为了营销效果和降低用户理解门槛,通常不会详细解释不同模型的差异和 Token 的计算方法,久而久之,“Token” 在日常语境中也成了一个抽象的容量代名词。
从 “Bit 经营” 到 “Token 经营”
在 AI 产业迅猛发展的同时,作为连接提供者的移动运营商,也纷纷向 “算力与智能服务提供商” 转型,核心方向就是从传统的 “Bit 经营” 转向 “Token 经营”。
Token 经营分为 “对内精细化运营” 和 “对外商业化经营” 两大层面。
对内 Token 精细化运营的核心目标是降本增效。
要把大模型的能力用在刀刃上,核心思路就是把 Token 消耗与业务产出挂钩,解决大模型规模化应用中 “成本计算不清、故障定位慢、资源浪费严重、价值与消耗脱节” 的痛点,把 Token 管控融入 AI 全生命周期管理。
具体落地动作包括全链路 Token 计量与成本分摊、精准流控与差异化调度、精细化运维与价值对齐等。通过这些措施,倒逼企业内部的 AI 应用优化,让 Token 消耗真正转化为业务价值。
目前,对内的 Token 精细化运营已实现规模化落地。
对外的 Token 商业化经营,就要重构商业模式了。
它以 Token 为核心经营标的,跳出 “卖流量、卖算力” 的传统模式,转型为 “智能服务提供商”,以 Token 为载体,整合算网能力、模型能力与场景服务,打造全新的盈利模式。
这就需要运营商通过自有大模型及自有云服务提供模型推理、专属算力集群、私有化部署等服务,直接成为AI 服务的提供方。
针对有强合规、数据不出域、高安全要求的政企客户,运营商提供“专网传输 + 专属算力池 + 私有化模型 + 全链路运维”的一体化闭环服务。所有 AI 交互、Token消耗,全程都在运营商管控之内,自然可以实现Token收费。
运营商还可以搭建开放的AI 服务聚合平台,向上向多家大模型厂商批量采购 Token 算力,向下面向中小商户、个人用户提供统一的 Token 池套餐。
就算底层模型不是运营商自研的,运营商也通过生态聚合切入了Token经营并赚取差价与服务费,同时还能绑定网络自身的账户体系和安全能力。
最后就是我们之前所说的AI-RAN,即基站内的算力变现了。面向车联网、低空经济、机器人、工业智能体等对低时延、高可靠有强需求的场景,运营商可以在基站等边缘算力节点部署AI服务,向有边侧推理需求的企业销售并按Token计费。
对外的 Token 商业化经营,正是行业转型的核心探索方向。
Token 经营是 AI 时代运营商商业模式的一次根本性变革,对内是大模型时代降本增效的必备能力,对外是突破管道瓶颈、实现价值升维的核心抓手。
其最终能否落地成功,核心不在于更换计价单位,而在于运营商能否真正补齐技术与生态短板,把独有的算网优势、用户优势、运营优势,转化为Token 生态的主导权与核心竞争力。
Token,用中文怎么说?
目前业界并没有约定俗成的统一译法,使用最广泛的是 “词元”。
但 “词元” 这个翻译,带着浓厚的 “前 AI 时代” 文本处理的遗留色彩,面对如今能处理视频、音频、图片的多模态模型,再叫 “词元” 已经明显词不达意。
个人认为,把 Token 翻译成 “智元” 是更合适的选择。
“智” 对应大模型的智能本质,“元” 锚定 “原子化、基础元单位” 的核心属性。技术上,它是 AI 智能处理的最小信息单元;商业上,它是智能服务的最小计价单元,完美适配多模态场景与 AI 商业化的双重内涵。
在中文语境下,你觉得 Token 这个词需要翻译吗?怎么翻译才“信达雅”?
691