AI类 · 2026年3月25日 0

Meta开源KernelEvolve:AI自动写GPU内核,性能提升17倍

写GPU内核这活儿有多痛苦,搞过深度学习的都懂。一个算子优化,专家得折腾2-8周,而且换个硬件平台又得重写一遍。

Meta搞了个大新闻,开源了KernelEvolve——一个用AI智能体自动生成高性能内核的框架。

说白了,就是让AI帮你写CUDA/Triton代码,效果比人写的还快,最高能提升17倍性能!

Meta每天要给数十亿用户做广告排序推理,执行数百万亿次计算,耗电量是兆瓦级别的。微秒级的延迟优化,直接影响用户体验和公司收入。

但现在的问题是三大维度的诅咒:
1.模型架构千奇百怪——Transformer、CNN、推荐模型,算子需求各不相同
2.硬件平台五花八门——NVIDIA、AMD、还有Meta自己搞的MTIA芯片
3.编程模型碎片化——CUDA、Triton、CuTe、TLX,学都学不过来

## KernelEvolve是啥?

简单说,这就是一个AI驱动的内核代码生成器。

你给它一个算子规格(输入输出啥样、要干啥),它自动给你生成优化好的内核代码。

系统架构分三层:
– 最上层是搜索策略——用贪心搜索、MCTS(蒙特卡洛树搜索)、进化算法来探索代码空间
– 中间是智能体核心——几个子代理分工合作
– 底层是评估工具——验证代码正确性、分析性能瓶颈

## 核心技术亮点

1.通用算子设计
传统AI代码生成是固定的Draft/Debug/Improve三件套。KernelEvolve搞了个通用算子,通过检索增强提示合成,动态适应不同的运行时上下文。

2.支持专有硬件
Meta自己搞的MTIA芯片,训练语料里根本没有。KernelEvolve通过知识注入,把硬件特性文档喂给系统,LLM就能生成生产级的MTIA内核。

支持的硬件平台:
– NVIDIA GPU:Triton→LLVM-IR→PTX/CUBIN
– AMD GPU:类似NVIDIA的Triton支持
– MTIA(Meta自研):Triton→RISC-V Binary

## 效果咋样?

基准测试:KernelBench 250道题100%通过率,PyTorch ATen 160个算子×3个平台=480种配置100%正确。

生产环境性能提升:
– Llama-3.1-8B Attention:4.6倍加速
– Conv1d卷积:6.5倍加速
– Conv2d卷积:4.7倍加速
– MergeBucketizedDense Transform:9.3倍加速
– Batch Event Truncate:9.8倍加速
– MTIA RMSNorm 2D Backward:17倍加速

开发效率:从数周缩短至数小时。

KernelEvolve的意义不只是自动化写代码,它解决的是一个根本问题:新AI硬件的可编程性门槛。

以前出个新芯片,得等好几年才有成熟的软件生态。现在通过知识注入,AI可以直接学习新硬件特性,立刻开始生成优化代码。

来源:虎嗅网