Recoleta Item Note

Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes

本文提出一种“综合在环”的RTL生成评测框架,用综合后面积、时延和警告构成的HQI指标,系统评估32个LLM在202个Verilog任务上的真实硬件可用性。结论是,仅看仿真通过率会明显高估模型能力,而前沿模型已接近专家级质量,但单次部署稳定性和综合失败模式仍是主要瓶颈。

rtl-generationverilogllm-evaluationhardware-synthesiscode-generation

本文提出一种“综合在环”的RTL生成评测框架,用综合后面积、时延和警告构成的HQI指标,系统评估32个LLM在202个Verilog任务上的真实硬件可用性。结论是,仅看仿真通过率会明显高估模型能力,而前沿模型已接近专家级质量,但单次部署稳定性和综合失败模式仍是主要瓶颈。

  • 现有RTL生成评测大多只看语法或仿真是否通过,无法衡量代码是否可综合以及综合后的硬件质量
  • 对芯片设计而言,功能正确还不够;若面积/时延劣化严重,或根本无法映射到门级电路,生成结果就无法用于真实生产流程。
  • 因此需要一个覆盖“语法→综合→功能→QoR”的统一评测方法,避免软件代码评测范式误判硬件生成能力。
  • 构建了一个分阶段评测流水线:先检查Verilog语法(Icarus Verilog),再做综合(Yosys + Nangate45 45nm),最后运行测试平台验证功能正确性。
  • 提出 HQI (Hardware Quality Index),范围0–100;只有同时通过语法、综合和功能三关的设计才计分,并按相对专家参考设计的面积、时延、警告数计算质量。
  • 202 个任务(来自 VerilogEval 和 RTLLM)上评测 32 个模型,每个模型-任务做 5 次独立采样,同时统计复杂度加权的 Coverage、Global HQI(best-of-5)和 ExpHQI(单次期望质量)。
  • 设计了工具裁决的综合失败分类法,对通过解析但在Yosys阶段失败的样本做九类诊断,以分析不同模型的系统性失效机制。
  • 额外在 3 个工艺库 上复综合,验证模型排名对工艺变化是否稳健。
  • 32 个模型、202 个任务、每题5次尝试 的评测中,模型形成三层结构:Tier 113 个模型(Global HQI >71),Tier 211 个(53–68),Tier 38 个(<53)。
  • 最强模型是 Gemini-3-Pro,达到 87.5% Coverage85.1 Global HQI;其后如 GPT-5.4-Pro 81.3Gemini-3-Flash 81.2GPT-5.3-Codex 80.8GPT-5-Pro 80.5。最弱模型 Mistral-Nemo18.1 Global HQI,文中称最强最弱间硬件实现质量差距约 4.7×
  • 单看仿真会高估硬件准备度:所有模型上,best-of-5 pass rate 平均比 Global HQI 高 7.5 分;例如 GPT-4.176.7% pass vs. 62.8 HQI(差 13.9),Gemini-2.0-Flash54.5% pass vs. 39.6 HQI(差 14.9)。
  • 部署稳定性存在明显缺口:best-of-5 与单次期望质量差距为 3.8–22.1 HQI 点;Tier 1 中位差距也有 8.2,说明即使前沿模型单次调用也常达不到其能力上限。
  • 32,320 次总生成中,有 195 次是真实综合失败;前三大失效模式占 76.6%late syntax errors 59 次(30.0%)undefined module references 50 次(25.4%)non-synthesizable constructs 41 次(20.8%)
  • 失效模式按模型类型显著分化:专有模型更常“晚失败”,其 46% 失败为 elaboration 阶段的 late syntax error,且 synthesis timeout 12% 仅见于专有模型;开放权重模型更常“早失败”,undefined module 40%non-synthesizable 29%simulation-only system tasks 13%,指向其训练数据更偏仿真级RTL而非综合级RTL。另一个稳健性结果是,跨 3 个工艺库 的模型排名几乎不变,Spearman ρ > 0.99
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.