Trend brief · 2026-03-11

代码智能走向过程学习，软件代理转向真实评测与可审计执行

今天的研究焦点很集中：代码与软件工程方向继续升温，但大家讨论的已不只是“模型更会写代码”，而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思，静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹，再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。

5 tracked topics

Evolution3 signals · Continuing 2 · Shifting 1

Software Intelligence

code-reasoning software-engineering-agents evaluation security agent-auditing

Source markdown

Overview

Evolution

3 signals3 history windows

本期与历史窗口相比，最明确的变化有三点。第一，评测继续贴近真实环境，但对象更广了，不再只限于代码审查或 GUI 代理，而是进入 RTL 综合与部署稳定性。第二，代码模型训练正在从结构化表示继续前移到过程学习，重建开发轨迹和奖励中间执行步骤都属于这一类。第三，安全治理没有退潮，但今天更强调可验证工件，例如可独立验签的浏览器操作证据，而不是只谈高层原则。

真实工程评测继续深化

Continuing

History

软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)

相较软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10) 中的 CR-Bench 与 SpecOps，今天“更真实评测”的主线没有降温，反而从软件代理扩展到了硬件生成与验证方法。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》把 32 个模型放到 202 个 Verilog 任务、每题 5 次采样的综合在环流程里，发现 best-of-5 pass rate 平均比 Global HQI 高 7.5 分，像 GPT-4.1 甚至高出 13.9 分。这比软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10) 里强调真实 PR 和 GUI 场景的评测更进一步，开始直接测“能否综合、质量如何、单次是否稳定”。

代码模型训练从结构表示转向过程学习

Shifting

History

代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)

与代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09) 的 SWE-Fuse、结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的 KCoEvo 这类“结构化代码智能”相比，今天的训练焦点从结构表示进一步转向过程监督。《Understanding by…Read full rationaleCollapse

与代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09) 的 SWE-Fuse、结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的 KCoEvo 这类“结构化代码智能”相比，今天的训练焦点从结构表示进一步转向过程监督。《Understanding by Reconstruction》不再只利用仓库快照，而是从约 300k 仓库反向生成约 4B token 的开发轨迹，并做 20B token 持续预训练；《ExecVerify》则直接给中间执行步骤可验证奖励，把 7B 模型平均推理分数从 60.8 提到 80.8。变化点在于：模型不只是看结构和结果，而是开始显式学习规划、读取、执行和中间状态。

安全治理从原则设计走向可验证执行证据

Continuing

History

软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)

安全与治理仍是连续主题，但今天更偏向可操作工件。结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 讨论 Agent 安全前移到数据流治理，软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10) 提到协议化连接走向安全与治理设计；今天 Conduit 把浏览器代理每一步操作写成 SHA-256 哈希链，并在会话结束用 Ed25519 签名，生成含 action log、hash chain、signature、public key 的 proof bundle。相比早前更偏架构和协议层的治理讨论，这里已经出现可直接接入 MCP 工作流的审计组件。

Clusters

代码智能转向过程监督与可验证推理

代码与软件工程研究继续把关注点从“最终代码”推到“过程轨迹”。《Understanding by Reconstruction》用约 300k GitHub 仓库反向合成约 4B token 的开发轨迹，再对 Llama-3-8B-Instruct 做 20B token 持续预训练。结果显示，这类带规划、读取、编写和调试痕迹的数据，能同时带动长上下文、代码生成和部分代理任务。另一侧，《ExecVerify》把代码执行推理拆成可验证中间步骤，用白盒强化学习把 7B 模型平均分从 60.8 拉到 80.8，并把收益迁移到代码生成。两篇工作共同说明，代码智能正在从“学结果”走向“学过程”。

Representative sources

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining — Zhiyuan Zeng; Yichi Zhang; Yong Shan; Kai Hua; Siyuan Fang; Zhaiyu Liu; …
ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning — Lingxiao Tang; He Ye; Zhaoyang Chu; Muyang Ye; Zhongxin Liu; Xiaoxue Ren; …

软件工程代理走向语言专用与低副作用修复

软件工程代理这条线继续落到更具体的仓库操作上，但今天更强调语言特定工具链。《Resolving Java Code Repository Issues with iSWE Agent》把 issue 修复拆成定位与编辑两个子代理，并给定位阶段接入 7 个只读 Java 静态分析工具。它在 Multi-SWE-bench Java 子集 128 例和 SWE-PolyBench Java 子集 165 例上报告接近或达到最优，同时在同基座模型下把 API 成本压到其他领先系统的 2× 到 3× 更低。与只靠通用 bash/code 执行相比，这类“规则 + 模型”设计更像企业仓库场景。

Representative sources

Resolving Java Code Repository Issues with iSWE Agent — Jatin Ganhotra; Sami Serhan; Antonio Abu Nassar; Avraham Shinnar; Ziv Nevo; Martin Hirzel

评测从通过率转向部署质量与低成本验证

今天另一条强信号是，评测开始明显变得更贴近真实部署。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》不再只看仿真通过，而把语法、综合、功能和硬件质量接成一条链。作者在 32 个模型、202 个 Verilog 任务、每题 5 次采样上发现，best-of-5 pass rate 平均会比 Global HQI 高 7.5 分，说明“能跑”不等于“能落地”。同样地，《From Verification to Herding》也在重新定义软件验证，主张用更少样本逼近最优：EZR 在 63 个任务上用 32 个样本达到平均 90% optimality。两者都在推动评测从单点成功率转向质量与成本更完整的闭环。

Representative sources

Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes — Weimin Fu; Zeng Wang; Minghao Shao; Ramesh Karri; Muhammad Shafique; Johann Knechtel; …
From Verification to Herding: Exploiting Software's Sparsity of Influence — Tim Menzies; Kishan Kumar Ganguly

安全能力评测与代理审计并行升温

安全与治理主题今天仍在，但表达方式更工程化。《TOSSS》把软件安全能力变成真实 CVE 修复前后代码二选一任务，覆盖 14 个模型、每个模型 500 个 C/C++ 与 500 个 Java 样本；分数区间约 0.48 到 0.89，并显示显式安全提示平均还能带来 +0.021 到 +0.029 提升。另一边，Conduit 则把浏览器代理行为固化成带 SHA-256 哈希链和 Ed25519 签名的 proof bundle，让网页操作具备可验证审计证据。前者在测安全判断，后者在补执行审计，合起来体现出“安全不只看模型输出，也看过程可追责”。

Representative sources

Show HN:Conduit–Headless browser with SHA-256 hash chain - Ed25519 audit trails — TaxFix
FP-Predictor - False Positive Prediction for Static Analysis Reports — Tom Ohlmer; Michael Schlichtig; Eric Bodden

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart