AI类 · 2026年3月25日 0

人民想念DeepSeek

最近关于Token的讨论挺魔幻的。朋友圈随处能看到Token中文翻译的讨论——有”词元””智元”等等,甚至有”慧根”之类的搞笑版本。

Token不是一个新概念,大模型落地第一天起,它便与神经网络共生,但直到OpenClaw在用户群大规模扩散,各类Agent应用开始把Token带入了公众视野。

我认为其中有两个关键问题:它的消耗量太大了,价格也太贵了。

记得OpenAI发布GPT-5.4的时候,有用户反馈测试一句”你好”就消耗掉了80美元的Token,当时不少人都说这个使用量太夸张,但随着小龙虾大规模在用户群扩散,一个任务烧完千万级Token成为常态。

与之相对的是,英伟达CEO黄仁勋在GTC2026大会上以及之后的很多场合,都在强调工程师要大量的使用Token,甚至将Token纳入到薪酬激励机制。

一次对话环节,黄仁勋说:”如果年薪50万美元的工程师,连25万美元的Token都没用掉,我会极度恐慌。”

问题是,疯狂的烧Token一定能解决问题吗,有多少Token是有效的,什么样的投入产出比是合理的?

结合刚刚外媒的消息,有OpenAI程序员一周烧掉了2100亿Token,相当于33个维基百科,但这样的消耗量最终带来了什么?

很显然,这场疯狂烧Token的运动,能带来多少效果是存疑的,谁是获利者则是确定的。

黄仁勋将英伟达描述为”Token之王”,拥有世界最先进的”Token制造机”,但如果拼命鼓吹这件事,甚至暗示不用Token就会落后,那么可以说:一方面,黄仁勋想彻底改变AI时代企业”效率考核”的逻辑,另一方面,他也间接制造出了Token焦虑。

Token简单理解就是大语言模型处理信息的基本单位——用户输入提示词,模型输出答案,每一个字、每一个标点,都会计入Token的消耗量,本质上还是算力成本。

过去大家计算算力总拥有成本,指标有很多,包括衡量能效的Flops/W,核算均值的成本/Flops等等,今年的”Token经济学”中,Token/W逐步成为共识。

不管有多便宜,不管是哪一种计算单位,它都是投入成本量化,涉及到研发成本、硬件成本,部署成本,能耗成本,运营成本等。换句话说,降本也都是围绕上述环节展开。

对于Token降本来说,一个不好的消息是内存价格在疯涨。以HBM内存为例,它是支撑大模型训练和推理的关键器件,同时,推理数据量的暴涨也引发出了存储需求的同步上涨。2026年第一季度,DRAM的价格环比上涨超过50%,NAND价格环比最高涨幅达到150%。

存储价格一天不回落,Token降价就缺少一个关键的外部杠杆。

模型能力的提升也可以视为降价的另一个杠杆。”现在一些8B的小模型,能力越来越逼近全量大模型。”一位学术界研究员说。

中国大模型的价格战,不是没有先例。2024年,国内厂商就曾经爆发过一轮激烈的价格战。当时恰逢DeepSeek-V2上线,每百万Token输入1元、输出2元,彼时价格相当于GPT-4-Turbo的百分之一。

DeepSeek当时的降价关键就在于推理优化——MoE稀疏架构大幅降低了计算量,MLA多头潜在注意力把KV缓存压缩90%以上。

DeepSeek开启这轮降价之后,随即阿里、字节、等等先后下场展开价格战博弈,一度出现了”Token免费”的现象。

根据Artificial Analysis的跟踪数据,国产模型的API单价已经足够便宜了,只是这个便宜程度对于Agent的巨量消耗来说,还远远不够。如前面所说,受内存和存储的硬件成本冲击,国内云厂商现在面对的是涨价的难题,短期不太有降价的可能性。

一切的讨论都基于Token使用成本——贵的不是单价,而是重度任务对Token使用量的倍数放大。

要改变这一点,要么拥有更便宜的Token定价,要么Token消耗最小化,这依赖模型层面的优化,也取决于推理硬件层面的创新。但无论如何,在Token使用的总费用打不下来,且投入的有效产出不明确的情况下,疯狂安利Token消耗,甚至强调与绩效挂钩,说是制造Token焦虑,制造AI焦虑也不为过。

至少对于”虾民”来说,大概率如此。

来源:虎嗅