Recoleta Item Note

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

这篇论文提出 CUDA Agent，一个面向 CUDA 内核生成的大规模 agentic 强化学习系统，用于让模型真正学会 GPU 内核优化而不只是做浅层迭代修补。它面向高性能代码生成这一高门槛场景，并在 KernelBench 上报告了新的最优结果。

cuda-kernel-generationagentic-rlcode-optimizationgpu-programmingcode-intelligence

Summary

CUDA 内核优化对现代深度学习至关重要，但高度依赖硬件专家经验，难以自动化和规模化。
现有 LLM 方法虽然能写通用代码，但在 CUDA 内核生成上仍落后于编译器式系统，说明模型缺乏真正的底层优化能力。
现有方法主要依赖 training-free refinement 或固定多轮执行反馈微调，这些机制难以从根本上提升模型的 CUDA 优化能力，因此性能增益有限。

在 KernelBench 上，CUDA Agent 相比文中提到的基线系统实现了 faster rate 提升：Level-1 +100%、Level-2 +100%、Level-3 +92%。
在最难的 KernelBench Level-3 设置上，CUDA Agent 相比最强专有模型 Claude Opus 4.5 和 Gemini 3 Pro 约高 40%。
论文声称达到了 KernelBench 的 state-of-the-art 结果，表明 agentic RL 不只是改进格式或可执行性，而是显著提升了 CUDA 优化能力。
摘要未给出更多细粒度绝对分数、方差、训练规模或消融数字，因此当前可确认的定量结果主要是上述 faster-rate 相对提升。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.