代码智能走向过程学习,软件代理转向真实评测与可审计执行
今天的研究焦点很集中:代码与软件工程方向继续升温,但大家讨论的已不只是“模型更会写代码”,而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思,静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹,再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。
Overview
今天的研究焦点很集中:代码与软件工程方向继续升温,但大家讨论的已不只是“模型更会写代码”,而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思,静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹,再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。
Evolution
本期与历史窗口相比,最明确的变化有三点。第一,评测继续贴近真实环境,但对象更广了,不再只限于代码审查或 GUI 代理,而是进入 RTL 综合与部署稳定性。第二,代码模型训练正在从结构化表示继续前移到过程学习,重建开发轨迹和奖励中间执行步骤都属于这一类。第三,安全治理没有退潮,但今天更强调可验证工件,例如可独立验签的浏览器操作证据,而不是只谈高层原则。
代码模型训练从结构表示转向过程学习
Shifting安全治理从原则设计走向可验证执行证据
Continuing安全与治理仍是连续主题,但今天更偏向可操作工件。结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 讨论 Agent 安全前移到数据流治理,软件工程代理转向真实评测,证据驱动流程与协议安全同步升温 (2026-03-10) 提到协议化连接走向安全与治理设计;今天 Conduit 把浏览器代理每一步操作写成 SHA-256 哈希链,并在会话结束用 Ed25519 签名,生成含 action log、hash chain、signature、public key 的 proof bundle。相比早前更偏架构和协议层的治理讨论,这里已经出现可直接接入 MCP 工作流的审计组件。
Clusters
代码智能转向过程监督与可验证推理
代码与软件工程研究继续把关注点从“最终代码”推到“过程轨迹”。《Understanding by Reconstruction》用约 300k GitHub 仓库反向合成约 4B token 的开发轨迹,再对 Llama-3-8B-Instruct 做 20B token 持续预训练。结果显示,这类带规划、读取、编写和调试痕迹的数据,能同时带动长上下文、代码生成和部分代理任务。另一侧,《ExecVerify》把代码执行推理拆成可验证中间步骤,用白盒强化学习把 7B 模型平均分从 60.8 拉到 80.8,并把收益迁移到代码生成。两篇工作共同说明,代码智能正在从“学结果”走向“学过程”。
Representative sources
- Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining — Zhiyuan Zeng; Yichi Zhang; Yong Shan; Kai Hua; Siyuan Fang; Zhaiyu Liu; …
- ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning — Lingxiao Tang; He Ye; Zhaoyang Chu; Muyang Ye; Zhongxin Liu; Xiaoxue Ren; …
软件工程代理走向语言专用与低副作用修复
软件工程代理这条线继续落到更具体的仓库操作上,但今天更强调语言特定工具链。《Resolving Java Code Repository Issues with iSWE Agent》把 issue 修复拆成定位与编辑两个子代理,并给定位阶段接入 7 个只读 Java 静态分析工具。它在 Multi-SWE-bench Java 子集 128 例和 SWE-PolyBench Java 子集 165 例上报告接近或达到最优,同时在同基座模型下把 API 成本压到其他领先系统的 2× 到 3× 更低。与只靠通用 bash/code 执行相比,这类“规则 + 模型”设计更像企业仓库场景。
Representative sources
- Resolving Java Code Repository Issues with iSWE Agent — Jatin Ganhotra; Sami Serhan; Antonio Abu Nassar; Avraham Shinnar; Ziv Nevo; Martin Hirzel
评测从通过率转向部署质量与低成本验证
今天另一条强信号是,评测开始明显变得更贴近真实部署。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》不再只看仿真通过,而把语法、综合、功能和硬件质量接成一条链。作者在 32 个模型、202 个 Verilog 任务、每题 5 次采样上发现,best-of-5 pass rate 平均会比 Global HQI 高 7.5 分,说明“能跑”不等于“能落地”。同样地,《From Verification to Herding》也在重新定义软件验证,主张用更少样本逼近最优:EZR 在 63 个任务上用 32 个样本达到平均 90% optimality。两者都在推动评测从单点成功率转向质量与成本更完整的闭环。
Representative sources
- Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes — Weimin Fu; Zeng Wang; Minghao Shao; Ramesh Karri; Muhammad Shafique; Johann Knechtel; …
- From Verification to Herding: Exploiting Software's Sparsity of Influence — Tim Menzies; Kishan Kumar Ganguly
安全能力评测与代理审计并行升温
安全与治理主题今天仍在,但表达方式更工程化。《TOSSS》把软件安全能力变成真实 CVE 修复前后代码二选一任务,覆盖 14 个模型、每个模型 500 个 C/C++ 与 500 个 Java 样本;分数区间约 0.48 到 0.89,并显示显式安全提示平均还能带来 +0.021 到 +0.029 提升。另一边,Conduit 则把浏览器代理行为固化成带 SHA-256 哈希链和 Ed25519 签名的 proof bundle,让网页操作具备可验证审计证据。前者在测安全判断,后者在补执行审计,合起来体现出“安全不只看模型输出,也看过程可追责”。
Representative sources
- Show HN:Conduit–Headless browser with SHA-256 hash chain - Ed25519 audit trails — TaxFix
- FP-Predictor - False Positive Prediction for Static Analysis Reports — Tom Ohlmer; Michael Schlichtig; Eric Bodden
Run your own research radar
Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.