---
kind: trend
trend_doc_id: 422
granularity: day
period_start: '2026-03-11T00:00:00'
period_end: '2026-03-12T00:00:00'
topics:
- code-reasoning
- software-engineering-agents
- evaluation
- security
- agent-auditing
run_id: materialize-outputs
aliases:
- recoleta-trend-422
tags:
- recoleta/trend
- topic/code-reasoning
- topic/software-engineering-agents
- topic/evaluation
- topic/security
- topic/agent-auditing
language_code: zh-CN
---

# 代码智能走向过程学习，软件代理转向真实评测与可审计执行

## Overview
今天的研究焦点很集中：代码与软件工程方向继续升温，但大家讨论的已不只是“模型更会写代码”，而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思，静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹，再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。

## Evolution

本期与历史窗口相比，最明确的变化有三点。第一，评测继续贴近真实环境，但对象更广了，不再只限于代码审查或 GUI 代理，而是进入 RTL 综合与部署稳定性。第二，代码模型训练正在从结构化表示继续前移到过程学习，重建开发轨迹和奖励中间执行步骤都属于这一类。第三，安全治理没有退潮，但今天更强调可验证工件，例如可独立验签的浏览器操作证据，而不是只谈高层原则。

### 真实工程评测继续深化

- 变化：延续
- 历史窗口：[软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)](day--2026-03-10--trend--378.md), [代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)](day--2026-03-09--trend--330.md)

相较 [软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)](day--2026-03-10--trend--378.md) 中的 CR-Bench 与 SpecOps，今天“更真实评测”的主线没有降温，反而从软件代理扩展到了硬件生成与验证方法。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》把 32 个模型放到 202 个 Verilog 任务、每题 5 次采样的综合在环流程里，发现 best-of-5 pass rate 平均比 Global HQI 高 7.5 分，像 GPT-4.1 甚至高出 13.9 分。这比 [软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)](day--2026-03-10--trend--378.md) 里强调真实 PR 和 GUI 场景的评测更进一步，开始直接测“能否综合、质量如何、单次是否稳定”。

### 代码模型训练从结构表示转向过程学习

- 变化：转向
- 历史窗口：[代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)](day--2026-03-09--trend--330.md), [结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)](day--2026-03-08--trend--284.md)

与 [代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)](day--2026-03-09--trend--330.md) 的 SWE-Fuse、[结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)](day--2026-03-08--trend--284.md) 的 KCoEvo 这类“结构化代码智能”相比，今天的训练焦点从结构表示进一步转向过程监督。《Understanding by Reconstruction》不再只利用仓库快照，而是从约 300k 仓库反向生成约 4B token 的开发轨迹，并做 20B token 持续预训练；《ExecVerify》则直接给中间执行步骤可验证奖励，把 7B 模型平均推理分数从 60.8 提到 80.8。变化点在于：模型不只是看结构和结果，而是开始显式学习规划、读取、执行和中间状态。

### 安全治理从原则设计走向可验证执行证据

- 变化：延续
- 历史窗口：[软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)](day--2026-03-10--trend--378.md), [代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)](day--2026-03-09--trend--330.md), [结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)](day--2026-03-08--trend--284.md)

安全与治理仍是连续主题，但今天更偏向可操作工件。[结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08)](day--2026-03-08--trend--284.md) 讨论 Agent 安全前移到数据流治理，[软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)](day--2026-03-10--trend--378.md) 提到协议化连接走向安全与治理设计；今天 Conduit 把浏览器代理每一步操作写成 SHA-256 哈希链，并在会话结束用 Ed25519 签名，生成含 action log、hash chain、signature、public key 的 proof bundle。相比早前更偏架构和协议层的治理讨论，这里已经出现可直接接入 MCP 工作流的审计组件。

## Clusters

### 代码智能转向过程监督与可验证推理

代码与软件工程研究继续把关注点从“最终代码”推到“过程轨迹”。《Understanding by Reconstruction》用约 300k GitHub 仓库反向合成约 4B token 的开发轨迹，再对 Llama-3-8B-Instruct 做 20B token 持续预训练。结果显示，这类带规划、读取、编写和调试痕迹的数据，能同时带动长上下文、代码生成和部分代理任务。另一侧，《ExecVerify》把代码执行推理拆成可验证中间步骤，用白盒强化学习把 7B 模型平均分从 60.8 拉到 80.8，并把收益迁移到代码生成。两篇工作共同说明，代码智能正在从“学结果”走向“学过程”。

#### Representative sources
- [Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining](../Inbox/2026-03-11--understanding-by-reconstruction-reversing-the-software-development-process-for-llm-pretraining.md) — Zhiyuan Zeng; Yichi Zhang; Yong Shan; Kai Hua; Siyuan Fang; Zhaiyu Liu; …
- [ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning](../Inbox/2026-03-11--execverify-white-box-rl-with-verifiable-stepwise-rewards-for-code-execution-reasoning.md) — Lingxiao Tang; He Ye; Zhaoyang Chu; Muyang Ye; Zhongxin Liu; Xiaoxue Ren; …


### 软件工程代理走向语言专用与低副作用修复

软件工程代理这条线继续落到更具体的仓库操作上，但今天更强调语言特定工具链。《Resolving Java Code Repository Issues with iSWE Agent》把 issue 修复拆成定位与编辑两个子代理，并给定位阶段接入 7 个只读 Java 静态分析工具。它在 Multi-SWE-bench Java 子集 128 例和 SWE-PolyBench Java 子集 165 例上报告接近或达到最优，同时在同基座模型下把 API 成本压到其他领先系统的 2× 到 3× 更低。与只靠通用 bash/code 执行相比，这类“规则 + 模型”设计更像企业仓库场景。

#### Representative sources
- [Resolving Java Code Repository Issues with iSWE Agent](../Inbox/2026-03-11--resolving-java-code-repository-issues-with-iswe-agent.md) — Jatin Ganhotra; Sami Serhan; Antonio Abu Nassar; Avraham Shinnar; Ziv Nevo; Martin Hirzel


### 评测从通过率转向部署质量与低成本验证

今天另一条强信号是，评测开始明显变得更贴近真实部署。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》不再只看仿真通过，而把语法、综合、功能和硬件质量接成一条链。作者在 32 个模型、202 个 Verilog 任务、每题 5 次采样上发现，best-of-5 pass rate 平均会比 Global HQI 高 7.5 分，说明“能跑”不等于“能落地”。同样地，《From Verification to Herding》也在重新定义软件验证，主张用更少样本逼近最优：EZR 在 63 个任务上用 32 个样本达到平均 90% optimality。两者都在推动评测从单点成功率转向质量与成本更完整的闭环。

#### Representative sources
- [Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes](../Inbox/2026-03-11--synthesis-in-the-loop-evaluation-of-llms-for-rtl-generation-quality-reliability-and-failure-modes.md) — Weimin Fu; Zeng Wang; Minghao Shao; Ramesh Karri; Muhammad Shafique; Johann Knechtel; …
- [From Verification to Herding: Exploiting Software's Sparsity of Influence](../Inbox/2026-03-11--from-verification-to-herding-exploiting-software-s-sparsity-of-influence.md) — Tim Menzies; Kishan Kumar Ganguly


### 安全能力评测与代理审计并行升温

安全与治理主题今天仍在，但表达方式更工程化。《TOSSS》把软件安全能力变成真实 CVE 修复前后代码二选一任务，覆盖 14 个模型、每个模型 500 个 C/C++ 与 500 个 Java 样本；分数区间约 0.48 到 0.89，并显示显式安全提示平均还能带来 +0.021 到 +0.029 提升。另一边，Conduit 则把浏览器代理行为固化成带 SHA-256 哈希链和 Ed25519 签名的 proof bundle，让网页操作具备可验证审计证据。前者在测安全判断，后者在补执行审计，合起来体现出“安全不只看模型输出，也看过程可追责”。

#### Representative sources
- [Show HN:Conduit–Headless browser with SHA-256 hash chain - Ed25519 audit trails](../Inbox/2026-03-11--show-hn-conduit-headless-browser-with-sha-256-hash-chain-ed25519-audit-trails.md) — TaxFix
- [FP-Predictor - False Positive Prediction for Static Analysis Reports](../Inbox/2026-03-11--fp-predictor-false-positive-prediction-for-static-analysis-reports.md) — Tom Ohlmer; Michael Schlichtig; Eric Bodden