AI类 · 2026年3月23日 0

Kimi用户”被劝退”,都怪中国大模型Token调用量领跑全球?

3月15日,全球最大AI模型聚合平台OpenRouter发布了一组数据,中国大模型在这一周的调用量达到4.69万亿Token,连续第二周压过美国,全球调用量排名前三的位置被中国模型包揽。

同一时期,月之暗面公司的Kimi正经历一场从资本到市场的连环爆发。据证券时报报道,2025年12月底至今,Kimi完成三轮融资,估值在不到三个月内翻了四倍,升至180亿美元,成为国内估值最快突破百亿美元的”十角兽”公司。新一轮10亿美元融资正在进行。

受Kimi K2.5模型及Kimi Claw火爆出圈带动,1月底以来,Kimi20天收入超过2025年全年。全球支付巨头Stripe的数据显示,Kimi个人订阅用户1月支付订单数环比增长8280%,2月环比再涨123.8%,冲进Stripe全球榜单前十。

海外开发者发现知名AI编程工具Cursor发布的新模型Composer 2疑似基于Kimi K2.5开发,马斯克在社交平台回复”是的,这就是Kimi 2.5″,Kimi随后表示感谢。此前马斯克还曾对月之暗面的技术报告表示”令人印象深刻的结果”。

两件事,一个指向中国AI基建的整体水位,另一个指向单一明星公司的声量与资本神话。表面上看,都是好消息。但如果把这两条线放在一起,用同一个用户视角去观察,就会看到一种被高速增长掩盖的紧张感。

我使用Kimi查资料时,最常遇到的就是那句”高峰时段算力不足”。起初以为只是个别产品的运营波动,直到看到4.69万亿Token这个数字,才意识到那句提示语背后站着的不是某个公司的服务器告急,而是整个行业的供需方程式正在被改写。

Kimi的算力不足,是中国大模型4.69万亿Token周调用量这个宏观数据在个体身上的具体折射。宏观数据讲的是总盘子,但总盘子是由无数个用户每一次点击、每一个智能体昼夜不停的轮询堆积出来的。

AI智能体是这一轮需求爆炸的直接推手

以OpenClaw为代表的智能体框架,把大模型从回答问题的工具变成了自动执行任务的数字员工。一个配置合理的智能体可以全天候工作,消耗的Token是普通聊天的几十倍甚至上百倍。

Kimi K2.5恰好成为开源智能体框架OpenClaw的首选模型,海外开发者的调用量因此激增,直接加剧了算力紧张。这个细节很重要,Kimi的算力紧张不是来自国内用户的自然增长,而是被一个技术范式转变推到了风口。

AI智能体正在从极客玩物变成规模化部署的生产力工具,每一轮调用都是持续的、长链路的、高度密集的,不再像人类聊天那样有间歇和停顿。其模式对算力的消耗方式,与过去的应用场景完全不同。

与此同时,4.69万亿Token的周调用量里,智能体贡献了巨大份额。摩根大通预测,中国的AI推理Token消耗量将从2025年的约10千万亿增长到2030年的约3900千万亿,五年增长约370倍。数字所指向的,正是眼下发生的智能体浪潮。

供给侧的物理极限

高性能芯片获取难、成本高,在当前国际环境下,即便Kimi资金充裕,也难以在短时间内获得足够的高性能计算芯片来满足暴涨的需求。全球范围内,高性能计算芯片的产能扩张速度远慢于需求的增长速度,供应短缺是普遍现象。

2026年3月,阿里云、百度智能云、腾讯云相继宣布上调AI算力产品价格或调整Token计费标准,算力成本压力已经传导到终端。全行业都在为算力短缺买单,Kimi的高峰时段算力不足,正是成本压力传导到用户体验层面的直接体现。

技术层面的应对

从技术层面看,Kimi应对算力瓶颈的方式是从架构、推理、系统三个层面进行系统性重构。架构层通过混合注意力机制将长程记忆计算复杂度降至线性,结合稀疏化专家模型与动态路由让简单任务仅激活少量专家网络。

推理层借助Toggle Token策略将输出Token减少25%至30%,以智能体集群编排将复杂任务拆解为多模型并行处理,延迟降低4.5倍。系统层通过解耦编码器进程使多模态效率达到纯文本训练的90%。

以上技术优化的方向非常清晰,从”暴力堆料”转向”精细运营”,用算法换取算力,用效率缓解短缺。但一个必须面对的事实是,在4.69万亿Token的宏观需求面前,物理算力的绝对缺口依然存在。

算力效率成为新竞争制高点

过去几年,中美AI竞赛的核心指标是模型参数量、上下文长度、多模态能力。现在,算力效率正在成为新的制高点。美国企业凭借高端芯片的供给优势,长期沿用大力出奇迹的路径。中国企业则在芯片供应受限的硬约束下,被迫在架构创新、推理优化、系统调度上走得更深。

Kimi Linear架构、Toggle Token策略、Agent Swarm并行、异构算力适配,这些都是在供给受限条件下长出来的能力。阿里云推出的Aegaeon GPU池化系统,通过Token级别的精细调度让一个GPU同时服务多个模型,将所需GPU数量削减82%,也是这种压力倒逼创新的典型。

结语

使用Kimi时遇到”高峰时段算力不足”,表面看是一个产品体验问题,深层次看是中国AI产业在Token时代初期,需求爆发式增长与供给结构性短缺之间矛盾的典型体现。那个提示语告诉我们,中国AI已经走到了一个临界点,再往前每一步,都需要技术、资本、产业链三端协同发力。

4.69万亿Token这个数字带来的不只是自豪感,更是一个清醒的提醒:需求的狂飙已经撞上了物理世界的墙。中美大模型在算力效率上的竞争,将是未来几年最值得观察的维度。

来源:虎嗅