上周,纽约时报报道了硅谷一个新风气叫 tokenmaxxing,Meta 和 OpenAI 的工程师在内部搞 token 消耗量排行榜,比谁烧得多。黄仁勋在 GTC 2026 上更激进,提议企业给工程师发 token 预算,作为工资之外的第二份薪酬。OpenAI 的数据则显示,过去一年企业客户的推理 token 消耗量暴涨了约 320 倍。
需求侧在爆炸。供给侧呢?黄仁勋在同一场 keynote 上搬出了 Tokenomics 这个概念,把它从加密货币的语境里拎出来,重新定义为 AI 推理的经济学。核心指标叫 Tokens per Watt,衡量每瓦特电力能产出多少 token。他说推理拐点已经到了,NVIDIA 预计 Blackwell 和 Vera Rubin 芯片订单量到 2027 年将达到 1 万亿美元。
过去三年,行业给出的答案是,建更大的数据中心,塞更多的 GPU。这在训练时代完全成立。但推理和训练的逻辑不同。训练一个模型是一次性工程,推理要做几十亿次,而且对延迟极度敏感。当推理请求像洪水一样涌来,把所有 GPU 集中在几个超大数据中心里,可能恰恰成了瓶颈。
推理时代撞上”光速墙”
在今年 GTC 上,Akamai 对这个问题给出了非常系统的回答。Akamai 是 CDN 概念的开创者,也是目前全球最大的分布式计算平台,拥有业内最庞大的边缘节点网络。1998 年成立,全球前十的视频流媒体平台、游戏公司、银行基本都是它的客户。全球拥有超过 4400 个边缘入网点,覆盖 130 多个国家,承载全球近三分之一的互联网流量。
这家公司在近三十年里经历了三次转型,从 CDN 到安全,再到云计算和 AI。今年 GTC 上,它带来了两个 session,核心主题只有一个,为什么 AI 推理必须走向分布式。
物理定律不会因为 GPU 更快就网开一面。光在光纤中每秒约跑 20 万公里,从伦敦到美东数据中心单程延迟约 28 毫秒,往返就是 56 毫秒。从东京出发更远,往返约 134 毫秒。这还没算任何计算时间。
延迟之外还有带宽。同样 1GW 的算力,如果集中在一个数据中心用 Blackwell 做视频推理,出口带宽需求是 75 Tbit/s。分布到 20 个区域节点,每个只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍,背后的网络成本差距不言而喻。
出海 AI 创业者的第三种选择
Akamai 从 CDN 到安全,再到云计算和 AI 推理的转型路径,本身就是互联网基础设施演进的一个切面。它在这条赛道上的差异化在于,不是从零建数据中心,而是把已经运行了近三十年的全球分布式网络变成了 AI 推理的底座。
全球化部署推理能力正在从”以后再说”变成”现在就得解决”。合规(数据主权、不出境)、延迟(用户体验的硬门槛)、成本(egress 和 GPU 租用的真实账单),这是出海时最现实的三座山。Akamai 的边缘推理平台提供了一种此前不太存在的选择,不必自建全球基础设施,也不必把鸡蛋全放在几家超大规模云上,而是可以借助一张已经覆盖 130 多个国家的分布式网络,把推理跑到离用户最近的地方去。
来源:品玩

