AI类 · 2026年3月21日 0

Token吞金兽发力,BAT做出了”违背祖训”的决定

3月18日,阿里云和百度智能云同日宣布AI算力和存储产品涨价,涨幅最高达34%。一周前,腾讯云刚刚将混元大模型Token价格上调超450%。

中国四大云厂商中的三家,不到十天内集体涨价。而涨价,曾经是云计算行业字典里不存在的词汇。

作为行业领军者,亚马逊AWS用二十年间近百次的降价奠定了整个产业”只降不涨”的历史基调。贝佐斯那句”降价是我们的核心策略”,让微软Azure与谷歌云不得不长期祭出激进的降价打法被动迎战。

传导至国内,价格战演绎得更为惨烈。从早年震惊业界的”一分钱中标”,一年18轮降价的疯狂,再到动辄腰斩乃至降价90%的”基操”,直至近期大模型战场上从”以分计价”迅速跌至免费的新一轮厮杀,降价早已融入了云厂商的血液。

降价的底层逻辑是一个自我强化的飞轮:摩尔定律驱动成本下降→降价获取更大市场份额→规模效应摊薄成本→更有底气降价→规模更大。二十年来,这个飞轮越转越快,没有人敢踩刹车。

直到2026年初,亚马逊做出了一个”违背祖训”的决定,对AI算力容量块实施约15%的价格上调。五天后,谷歌宣布全球大幅上调数据传输及AI基础设施服务价格;随后欧洲头部云服务商Hetzner、OVHcloud相继跟进;国内网宿科技、优刻得、智谱也在2月先后宣布涨价,一个季度内API价格近翻倍。

阿里云在18日的公告中明确指出了转向的原因:”因全球AI需求爆发、供应链涨价”,其平头哥真武810E等算力卡产品上涨5%~34%,文件存储产品CPFS(智算版)上涨30%。百度智能云不仅给出了几乎一致的涨幅(AI算力上调约5%~30%,并行文件存储上调约30%),甚至连新价格的生效日期都与阿里默契地选在了同一天——4月18日。

而先行一步的腾讯云,动作更为彻底。除了将混元HY2.0 Instruct的输入价格从每千Token 0.0008元暴涨至0.004505元外,其平台上的GLM 5、MiniMax 2.5、Kimi 2.5三个模型也宣告结束限时免费公测,转为正式商用计费。

观察者网获悉,字节火山引擎虽未发布正式涨价公告,但已全面收紧优惠政策、暂停首购特惠活动,通过取消补贴实现变相控价,成为行业集体转向的隐性信号。

从AWS到谷歌,从欧洲到国内,从二线厂商到头部巨头,整个云计算产业链在同一个季度里完成了看似不可思议的集体转向。

为什么是现在?

某家头部云厂商负责人对观察者网表示:”供应链是这轮涨价的核心原因。成本涨到这个程度,行业内谁都不可能再亏损换客户了。”

最直观的压力来自GPU。截至2月底,英伟达H200、H100等高端GPU租金环比上涨15%~30%。

这背后是核心存储组件对整个算力硬件的成本倒逼。全球95%的HBM产能被三星、SK海力士、美光三家垄断,行业普遍认为这一短缺可能持续至2028年,成为AI行业结构性约束。

这也直接导致2026年Q1传统DRAM合约价格环比暴涨约90%~95%,DDR5内存芯片现货价格半年最高涨近6倍,服务器级合约价单季翻倍。

与此同时,物理基础设施的成本同样在失控。

智算中心单机柜功耗从传统数据中心的5kW飙升至120kW以上,数据中心电力及散热成本占运营总成本的比例已高达40%~60%。

阿里和百度云的公告也印证了这一趋势。阿里云强调”全球AI需求爆发、供应链涨价”,百度智能云则直接指出”核心硬件及相关基础设施成本出现显著上涨”。

但单纯的成本压力并不足以支撑全行业的集体提价,真正的驱动力来自需求端的爆发与结构性转变。

2025年上半年中国公有云上大模型调用量达536.7万亿Tokens,较2024年全年增长近400%。到2026年2月,中国日均Token消耗已到180万亿级别。3月9日至15日这一周,中国AI大模型周调用量更是首次超过美国。

更关键的是需求结构的变化:AI应用大规模落地后,推理需求占总算力需求首次突破70%,取代训练成为算力消耗的第一驱动力。训练需求是间歇性的、可预测的;推理需求是持续性的、实时的——算力消耗从”可调度的批量任务”变成了”随时随地的实时负载”,对供给侧形成的压力完全不同。

龙虾改变了一切

OpenClaw的爆火则进一步加剧了云计算资源的紧张。

2026年春节期间,OpenClaw这款AI助手项目爆火。猎豹移动CEO傅盛透露,他的”OpenClaw”采用最高配置,每天高频调度,一个月花费近3万元。有用户反映重度使用下1亿Token大概只够撑一个月,成本约7000元。一位开发者在社区分享:使用OpenClaw做自动化任务,2个小时就消耗了100美元。

这种Agent级别的算力吞噬力,直接打乱了云厂商的产品节奏。OpenClaw的爆火引发了外部API调用量的海啸,而云厂商自家的AI原生应用也同样面临着算力挤兑。春节前后,阿里云上线的Coding Plan订阅服务,首购优惠仅推出十天,就因调用量暴涨被迫改为每日限时限量供应。

腾讯云面临着同样的算力水位压力,但动因更为复杂:除了外部Agent应用密集上线带来的推理端消耗骤增,腾讯还在全面推进微信生态的AI化。其自研的WorkBuddy、QClaw等内部智能体对算力有着极高且确定性的需求——在外部亏本赚吆喝和内部保供给之间,涨价本质上就是通过价格杠杆调节资源配置,优先保障自有核心生态。

但这不只是一个爆款带来的短期波动。从全民养”OpenClaw”,到影视行业拥抱视频大模型,再到各类AI原生工作平台的发布,Agent时代的Token消耗量是传统问答的数十倍乃至百倍。当刚性需求爆发到了不需要再用低价吸引用户的地步,云厂商终于有了彻底终结这场价格战的筹码。

在供应链的共性压力与需求侧的底气之上,头部厂商还在做一件事:把商业模式从”出租算力”向”出售Token”迁移。

过去,云厂商的生意是把GPU按卡时租出去,客户自己部署模型、自己做推理优化,云厂商赚的是硬件差价。现在,头部厂商开始把大模型封装成API,按Token数计费,模型研发、推理优化、调度分配全部由云厂商搞定。

这种迁移将深刻改变云厂商的利润结构与竞争逻辑。

Token时代的新逻辑

英伟达CEO黄仁勋在近期GTC大会上提出了”Token工厂经济学”——未来的数据中心不再是存储文件的仓库,而是生产Token的”工厂”。

当Token消耗量到了每天180万亿的量级,Token本身就变成了一种基础生产资料——类似电力之于工业时代,石油之于汽车时代。谁控制了Token的生产、分发和定价链路,谁就控制了AI时代的”电网”。而未来的定价权不仅在芯片手里,更在并网容量和液冷散热的统筹能力里——因为算力基础设施的物理约束,往往比芯片短缺更难突破。

3月16日,阿里成立全新的Alibaba Token Hub(ATH)事业群,由CEO吴泳铭直接负责,整合通义实验室、千问事业部、百炼MaaS业务线,覆盖从基础模型研发到AI应用的完整链路。

BAT集体做出了违背祖宗的决定不是因为某一家厂商想涨价,而是整个行业被同一股力量推到了一个临界点——供应链成本涨到了没有人再亏得起的地步,AI需求又爆发到了不需要再用低价吸引用户的地步。

云计算的下半场,不再是比谁更便宜,而是比谁更智能。

来源:虎嗅