北京时间3月20日,AI编程工具Cursor发布了自研模型Composer 2,宣称是公司首次对基座模型进行”继续预训练结合强化学习”的成果。发布博客里没提基座模型的来源,措辞像是在说,这是Cursor自己从头炼出来的。
不到两小时,一个名叫Fynn的开发者在调试Cursor的API时,截获了Composer 2的真实模型ID,kimi-k2p5-rl-0317-s515-fast。拆开来看,kimi_k2p5指向Kimi K2.5,rl是强化学习,后面是日期和版本号。
月之暗面预训练负责人杜宇伦第一时间发推,称团队测试了Composer 2的tokenizer,发现与Kimi的tokenizer”完全一致”,几乎可以确认”这是对我们模型的进一步微调”。
从”套壳”到”合作”,反转只用了几个小时
Kimi K2.5采用修改版MIT许可证,明确要求月营收超过2000万美元或月活超过1亿的商业产品,必须在用户界面上醒目标注”Kimi K2.5″。Cursor的年化收入约20亿美元,超出这条门槛8倍有余。
但就在舆论发酵的同一天,剧情反转了。月之暗面官方账号@Kimi_Moonshot发帖,口吻从质疑变成祝贺,称”我们很自豪看到Kimi K2.5为Composer 2提供了基础”,并澄清Cursor通过推理服务商Fireworks AI获得了授权使用。
Cursor联合创始人Aman Sanger随后解释说,团队对多个基座模型做了评估,Kimi K2.5是”最强的”,之后在此基础上做了额外预训练和4倍规模的强化学习。他承认没有在发布博客中提及Kimi K2.5是一个失误。
从开源协议争议到官宣合作,整个过程不到24小时。这也不是Cursor第一次被发现”底座来自中国”。2025年11月Composer 1发布时,社区通过tokenizer分析推测它与DeepSeek高度一致。
Kimi的”黄金一周”
往前倒推几天,Kimi刚经历了一个密度极高的曝光周期。
3月16日,月之暗面发布了一篇纯架构层面的技术论文”Attention Residuals”(注意力残差),试图替换掉Transformer架构中一个自2015年ResNet以来就几乎没人动过的基础组件。
论文发出当晚,马斯克在X上评价”Impressive work from Kimi”,Kimi官方回了一句”你的火箭造得也不错”。Andrej Karpathy说,”看来我们还没把’Attention is All You Need’这句话按字面意思理解透”。
第二天,3月17日,黄仁勋在GTC 2026的Keynote中多次提及中国开源模型。Kimi K2.5代替了去年的DeepSeek,成为黄仁勋用来对全世界展示推理重要性的时候,那个作为标杆的模型。
3月18日,杨植麟更是直接登上GTC的分论坛演讲。他是嘉宾名单中唯一来自独立大模型创业公司的代表,与特斯拉AI总监、DeepMind核心架构师同列。
站在DeepSeek的位置上
这让很多人开始意识到,Kimi正在占据DeepSeek在全球AI社区中的位置。
DeepSeek R1在2025年初的爆发重塑了整个行业的认知,让”中国AI”从一个模糊的概念变成了具体的、可以运行的模型权重。但自那之后,DeepSeek相对沉寂了。
Kimi恰好踩进了这个窗口期。2025年春节后,Kimi日活一度承压,月之暗面砍掉了大笔营销预算,闭门做模型。7月,Kimi K2发布,万亿参数MoE架构。K2发布后在Hugging Face上线首日下载量超过平台上所有其他模型。
2026年1月底,K2.5发布,原生多模态加Agent集群架构,在多项Agent评测中拿下全球开源最佳。据报道,K2.5发布不到一个月,Kimi近20天累计收入就超过了2025年全年。
Kimi就这样用DeepSeek的方式夺走了DeepSeek的光环。中国AI开源的故事,正在从”一个DeepSeek”变成一个不停有新的夺走光环的玩家出现的故事。
来源:虎嗅

