Recoleta Item Note
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
这篇论文提出 CUDA Agent,一个面向 CUDA 内核生成的大规模 agentic 强化学习系统,用于让模型真正学会 GPU 内核优化而不只是做浅层迭代修补。它面向高性能代码生成这一高门槛场景,并在 KernelBench 上报告了新的最优结果。
cuda-kernel-generationagentic-rlcode-optimizationgpu-programmingcode-intelligence
Summary
这篇论文提出 CUDA Agent,一个面向 CUDA 内核生成的大规模 agentic 强化学习系统,用于让模型真正学会 GPU 内核优化而不只是做浅层迭代修补。它面向高性能代码生成这一高门槛场景,并在 KernelBench 上报告了新的最优结果。
Problem
- CUDA 内核优化对现代深度学习至关重要,但高度依赖硬件专家经验,难以自动化和规模化。
- 现有 LLM 方法虽然能写通用代码,但在 CUDA 内核生成上仍落后于编译器式系统,说明模型缺乏真正的底层优化能力。
- 现有方法主要依赖 training-free refinement 或固定多轮执行反馈微调,这些机制难以从根本上提升模型的 CUDA 优化能力,因此性能增益有限。
Approach
- 核心方法是把 CUDA 内核开发变成一个可验证、可度量奖励的 agentic 强化学习任务,让模型在“写代码—验证—分析性能—再改进”的闭环中学习。
- 作者构建了可扩展的数据合成流水线,用来生成足够多的 CUDA 训练任务与轨迹,支撑大规模 RL 训练。
- 系统提供技能增强的 CUDA 开发环境,包含自动验证与性能分析,从而给出更可靠的 reward signal,而不是只依赖文本偏好或模糊反馈。
- 论文还引入了稳定训练所需的 RL 算法技术,以支持大规模 agentic 学习并逐步形成 CUDA kernel optimization 专长。
Results
- 在 KernelBench 上,CUDA Agent 相比文中提到的基线系统实现了 faster rate 提升:Level-1 +100%、Level-2 +100%、Level-3 +92%。
- 在最难的 KernelBench Level-3 设置上,CUDA Agent 相比最强专有模型 Claude Opus 4.5 和 Gemini 3 Pro 约高 40%。
- 论文声称达到了 KernelBench 的 state-of-the-art 结果,表明 agentic RL 不只是改进格式或可执行性,而是显著提升了 CUDA 优化能力。
- 摘要未给出更多细粒度绝对分数、方差、训练规模或消融数字,因此当前可确认的定量结果主要是上述 faster-rate 相对提升。
Link
Built with Recoleta
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.