可验证过程监督继续强化,并从训练走向推理时反馈
Continuing与 代码智能走向过程学习,软件代理转向真实评测与可审计执行 (2026-03-11) 中 ExecVerify 和“代码智能转向过程监督与可验证推理”的主线一致,今天最强证据仍然来自可验证过程信号。不同的是,USC 的 Idris 工作把监督从训练期推到推理期:GPT-5 在 56 道 Exercism Idris 题上,从 22/56(39%)借助编译器报错循环升到约 54/56(96%),而单纯补文档只到 low 60s。可验证反馈继续被证明比静态说明更有杠杆。