同样的算力,同样的数据,凭什么效果不一样?大多数人的直觉是:模型更大、数据更好、工程师更厉害。但Kimi给出了一个更出人意料的答案。
3月16日,月之暗面Kimi发布了一项重磅技术报告《Attention Residuals》(注意力残差)。
这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费1.25倍算力才能达到的效果。
报告发布后,也毫无意外得到了许多硅谷顶尖AI人物的点赞背书。
比如马斯克通过社交媒体表示「Impressive work from Kimi(令人印象深刻的工作)」OpenAI o1主要发明者Jerry Tworek称其为「深度学习2.0」的开端。
前OpenAI联创Andrej Karpathy说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」
十年没人动过的地基,被撬动了
过去两年,大模型的竞争主要在「上层建筑」展开:更好的注意力变体、更聪明的MoE路由策略、更精巧的对齐方法,大家都在Transformer这栋大楼的高层精装修。
唯独有一样东西,从2015年ResNet论文发表以来,几乎没人动过:残差连接(Residual Connections)。
现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加。这带来了一个名为PreNorm稀释的实际问题:随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。
Kimi选择的是一条更孤独也更难的路:回到最基础的结构,用第一性原理重新审视那些「理所当然」的设计。
一次优雅的「旋转」
Kimi团队这篇论文的核心突破,是把注意力机制从「处理文字序列」的维度,移植到「跨越网络深度」的维度上。
具体做法是,给每一层配备一个小小的「查询向量」,工人在开工前,先拿着需求单去翻所有前面工序的产出,根据相关度算出一套取用比例,再按这个比例把需要的原料混合起来。
每层只新增一个向量和一个归一化操作,参数量的增加对整个模型来说几乎可以忽略不计。
实验效果
在48B参数(3B激活)规模的Kimi Linear架构实验中,Block AttnRes展现了极强的泛化性:在全部15项主流评测基准中,其表现均持平或优于PreNorm基线模型。
例如,在博士级科学推理GPQA-Diamond上实现了7.5%的飞跃,在数学Math(+3.6%)及代码生成HumanEval(+3.1%)任务中也录得了显著增益。
按拟合曲线推算,在相同的计算量下,Block AttnRes相当于基线模型用1.25倍算力才能达到的效果。
文章来源于虎嗅网,原文链接:逆风局的OpenAI开启战略收缩

