随着 AI 的发展,Token这个词早已从科技领域“破圈”,成了大众的日常用语。然而大家要么直呼Token,要么写作“托肯”甚至“偷啃”,可谓五花八门。对于这个我们每天都要接触到,甚至会数次用到的高频词,没有正式中文翻译确实说不过去。这段混乱的历史,终于要终结了。
在2026年3月24日的中国发展高层论坛上,国家数据局正式给出了Token的官方中文:词元。
刘烈宏局长表示,“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能。下面我们来追溯下Token的演进史。
NLP时代的标准翻译其实,将Token称作词元的历史颇为悠久。
在大型语言模型(LLM)爆发之前,AI有一个细分领域叫做“自然语言处理”,简称NLP。在NLP中,Token表达的就是词、语素、词位等各种语言符号的最小单元,其标准翻译就是“词元”。但在当时,这只是一个小众的学术概念,并未进入大众视野。
大模型让Token破圈随着ChatGPT引发的AI发展狂潮,Token的概念迅速蔓延到几乎每一个行业,每一个领域。对于不了解NLP的大众来说,这就是一个全新的词,自然跟着业界一起叫Token。
再后来,随着多模态大模型的发展,Token不再局限于语言,而是变成了AI能处理一切离散符号的最小单元,图像、视频、声音等都可以拆解成Token。 此时,业界忙于获取AI时代的船票,快马加鞭地训练模型,推出各种产品,无暇顾及Token的名称问题,也就没有没有形成一致认可的翻译。
是时候给Token定名了
截至今年3月,我国日均Token调用量已超过140万亿,相比2024年增长了1000多倍;相比2025年底,仅仅三个月时间就增长了40%多。这表明,我国AI产业已进入爆发期,迫切需要用中文表达这些基础概念。
如果说Token是“乳名”的话,是时候给它起个“大名”了。那么,有哪些备选呢?
智元?虽说Token是AI大模型的处理的数据最小单元,但它本身只是一串符号,比如文本的一个词、一个字、一个标点,或者一小块图像的像素集,和智能一点不沾边。因此将其翻译成“智元”是不合适的。
符元?符元的支持者认为Token本质上只是符号空间的离散取值,是数据的载体,翻译成“符元”是非常严谨的。这一点确实没错,但终究是缺少使用基础。
模元?既然Token是大模型的的专属计量单位,那就把它叫做“模元”吧,简单直接。
个人认为,“模”多少有些指代不明的感觉,这个翻译不如“符元”好,也缺少使用基础。最终,国家数据局没有采纳这些备选名,而是选择尊重历史回归初心,将Token的中文名定为“词元”。
词元这名字到底好不好
相比于其他无根之水,词元在NLP领域确实是业界认可的翻译。现在它的内涵扩展了,沿用下去并普及开来是最好的选择。正如在现代语境下的“火箭”并不是燃烧着烈火的箭矢,而是将人造卫星送上太空的载具。随着Token的正名,AI产业发展也必将像搭乘火箭一样,一飞冲天。
636