人民想念DeepSeek

最近关于Token的讨论挺魔幻的。朋友圈随处能看到Token中文翻译的讨论——有”词元””智元”等等，甚至有”慧根”之类的搞笑版本。

Token不是一个新概念，大模型落地第一天起，它便与神经网络共生，但直到OpenClaw在用户群大规模扩散，各类Agent应用开始把Token带入了公众视野。

我认为其中有两个关键问题：它的消耗量太大了，价格也太贵了。

记得OpenAI发布GPT-5.4的时候，有用户反馈测试一句”你好”就消耗掉了80美元的Token，当时不少人都说这个使用量太夸张，但随着小龙虾大规模在用户群扩散，一个任务烧完千万级Token成为常态。

与之相对的是，英伟达CEO黄仁勋在GTC2026大会上以及之后的很多场合，都在强调工程师要大量的使用Token，甚至将Token纳入到薪酬激励机制。

一次对话环节，黄仁勋说：”如果年薪50万美元的工程师，连25万美元的Token都没用掉，我会极度恐慌。”

问题是，疯狂的烧Token一定能解决问题吗，有多少Token是有效的，什么样的投入产出比是合理的？

结合刚刚外媒的消息，有OpenAI程序员一周烧掉了2100亿Token，相当于33个维基百科，但这样的消耗量最终带来了什么？

很显然，这场疯狂烧Token的运动，能带来多少效果是存疑的，谁是获利者则是确定的。

黄仁勋将英伟达描述为”Token之王”，拥有世界最先进的”Token制造机”，但如果拼命鼓吹这件事，甚至暗示不用Token就会落后，那么可以说：一方面，黄仁勋想彻底改变AI时代企业”效率考核”的逻辑，另一方面，他也间接制造出了Token焦虑。

Token简单理解就是大语言模型处理信息的基本单位——用户输入提示词，模型输出答案，每一个字、每一个标点，都会计入Token的消耗量，本质上还是算力成本。

过去大家计算算力总拥有成本，指标有很多，包括衡量能效的Flops/W，核算均值的成本/Flops等等，今年的”Token经济学”中，Token/W逐步成为共识。

不管有多便宜，不管是哪一种计算单位，它都是投入成本量化，涉及到研发成本、硬件成本，部署成本，能耗成本，运营成本等。换句话说，降本也都是围绕上述环节展开。

对于Token降本来说，一个不好的消息是内存价格在疯涨。以HBM内存为例，它是支撑大模型训练和推理的关键器件，同时，推理数据量的暴涨也引发出了存储需求的同步上涨。2026年第一季度，DRAM的价格环比上涨超过50%，NAND价格环比最高涨幅达到150%。

存储价格一天不回落，Token降价就缺少一个关键的外部杠杆。

模型能力的提升也可以视为降价的另一个杠杆。”现在一些8B的小模型，能力越来越逼近全量大模型。”一位学术界研究员说。

中国大模型的价格战，不是没有先例。2024年，国内厂商就曾经爆发过一轮激烈的价格战。当时恰逢DeepSeek-V2上线，每百万Token输入1元、输出2元，彼时价格相当于GPT-4-Turbo的百分之一。

DeepSeek当时的降价关键就在于推理优化——MoE稀疏架构大幅降低了计算量，MLA多头潜在注意力把KV缓存压缩90%以上。

DeepSeek开启这轮降价之后，随即阿里、字节、等等先后下场展开价格战博弈，一度出现了”Token免费”的现象。

根据Artificial Analysis的跟踪数据，国产模型的API单价已经足够便宜了，只是这个便宜程度对于Agent的巨量消耗来说，还远远不够。如前面所说，受内存和存储的硬件成本冲击，国内云厂商现在面对的是涨价的难题，短期不太有降价的可能性。

一切的讨论都基于Token使用成本——贵的不是单价，而是重度任务对Token使用量的倍数放大。

要改变这一点，要么拥有更便宜的Token定价，要么Token消耗最小化，这依赖模型层面的优化，也取决于推理硬件层面的创新。但无论如何，在Token使用的总费用打不下来，且投入的有效产出不明确的情况下，疯狂安利Token消耗，甚至强调与绩效挂钩，说是制造Token焦虑，制造AI焦虑也不为过。

至少对于”虾民”来说，大概率如此。

来源：虎嗅

AI类 · 2026年3月25日 0