Meta开源KernelEvolve：AI自动写GPU内核，性能提升17倍

2026 年 3 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

写GPU内核这活儿有多痛苦，搞过深度学习的都懂。一个算子优化，专家得折腾2-8周，而且换个硬件平台又得重写一遍。

Meta搞了个大新闻，开源了KernelEvolve——一个用AI智能体自动生成高性能内核的框架。

说白了，就是让AI帮你写CUDA/Triton代码，效果比人写的还快，最高能提升17倍性能！

Meta每天要给数十亿用户做广告排序推理，执行数百万亿次计算，耗电量是兆瓦级别的。微秒级的延迟优化，直接影响用户体验和公司收入。

但现在的问题是三大维度的诅咒：
1.模型架构千奇百怪——Transformer、CNN、推荐模型，算子需求各不相同
2.硬件平台五花八门——NVIDIA、AMD、还有Meta自己搞的MTIA芯片
3.编程模型碎片化——CUDA、Triton、CuTe、TLX，学都学不过来

## KernelEvolve是啥？

简单说，这就是一个AI驱动的内核代码生成器。

你给它一个算子规格（输入输出啥样、要干啥），它自动给你生成优化好的内核代码。

系统架构分三层：
– 最上层是搜索策略——用贪心搜索、MCTS（蒙特卡洛树搜索）、进化算法来探索代码空间
– 中间是智能体核心——几个子代理分工合作
– 底层是评估工具——验证代码正确性、分析性能瓶颈

## 核心技术亮点

1.通用算子设计
传统AI代码生成是固定的Draft/Debug/Improve三件套。KernelEvolve搞了个通用算子，通过检索增强提示合成，动态适应不同的运行时上下文。

2.支持专有硬件
Meta自己搞的MTIA芯片，训练语料里根本没有。KernelEvolve通过知识注入，把硬件特性文档喂给系统，LLM就能生成生产级的MTIA内核。

支持的硬件平台：
– NVIDIA GPU：Triton→LLVM-IR→PTX/CUBIN
– AMD GPU：类似NVIDIA的Triton支持
– MTIA（Meta自研）：Triton→RISC-V Binary

## 效果咋样？

基准测试：KernelBench 250道题100%通过率，PyTorch ATen 160个算子×3个平台=480种配置100%正确。

生产环境性能提升：
– Llama-3.1-8B Attention：4.6倍加速
– Conv1d卷积：6.5倍加速
– Conv2d卷积：4.7倍加速
– MergeBucketizedDense Transform：9.3倍加速
– Batch Event Truncate：9.8倍加速
– MTIA RMSNorm 2D Backward：17倍加速

开发效率：从数周缩短至数小时。

KernelEvolve的意义不只是自动化写代码，它解决的是一个根本问题：新AI硬件的可编程性门槛。

以前出个新芯片，得等好几年才有成熟的软件生态。现在通过知识注入，AI可以直接学习新硬件特性，立刻开始生成优化代码。

来源：虎嗅网

归档

AI类 · 2026年3月25日 0

Meta开源KernelEvolve：AI自动写GPU内核，性能提升17倍

您可能还喜欢...

发表回复取消回复

AI类 · 2026年3月25日 0

您可能还喜欢...

黄仁勋2万字演讲背后：英伟达正在抢占AI时代操作系统定义权

力压谷歌和OpenAI，上海大模型成最大赢家，登顶“龙虾”全球流量榜首

Google搜索引擎技术演进与AI战略的历史分析

发表回复 取消回复

发表回复取消回复