Trend brief · 2026-03-11

代码智能走向过程学习,软件代理转向真实评测与可审计执行

今天的研究焦点很集中:代码与软件工程方向继续升温,但大家讨论的已不只是“模型更会写代码”,而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思,静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹,再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。

5 tracked topics
Evolution3 signals · Continuing 2 · Shifting 1

今天的研究焦点很集中:代码与软件工程方向继续升温,但大家讨论的已不只是“模型更会写代码”,而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思,静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹,再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。

3 signals3 history windows

本期与历史窗口相比,最明确的变化有三点。第一,评测继续贴近真实环境,但对象更广了,不再只限于代码审查或 GUI 代理,而是进入 RTL 综合与部署稳定性。第二,代码模型训练正在从结构化表示继续前移到过程学习,重建开发轨迹和奖励中间执行步骤都属于这一类。第三,安全治理没有退潮,但今天更强调可验证工件,例如可独立验签的浏览器操作证据,而不是只谈高层原则。

真实工程评测继续深化

Continuing
相较 软件工程代理转向真实评测,证据驱动流程与协议安全同步升温 (2026-03-10) 中的 CR-Bench 与 SpecOps,今天“更真实评测”的主线没有降温,反而从软件代理扩展到了硬件生成与验证方法。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》把…Read full rationaleCollapse

相较 软件工程代理转向真实评测,证据驱动流程与协议安全同步升温 (2026-03-10) 中的 CR-Bench 与 SpecOps,今天“更真实评测”的主线没有降温,反而从软件代理扩展到了硬件生成与验证方法。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》把 32 个模型放到 202 个 Verilog 任务、每题 5 次采样的综合在环流程里,发现 best-of-5 pass rate 平均比 Global HQI 高 7.5 分,像 GPT-4.1 甚至高出 13.9 分。这比 软件工程代理转向真实评测,证据驱动流程与协议安全同步升温 (2026-03-10) 里强调真实 PR 和 GUI 场景的评测更进一步,开始直接测“能否综合、质量如何、单次是否稳定”。

代码模型训练从结构表示转向过程学习

Shifting
与 代码代理走向可验证闭环,安全审计与研发自动化同步升温 (2026-03-09) 的 SWE-Fuse、 结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的 KCoEvo 这类“结构化代码智能”相比,今天的训练焦点从结构表示进一步转向过程监督。《Understanding by…Read full rationaleCollapse

代码代理走向可验证闭环,安全审计与研发自动化同步升温 (2026-03-09) 的 SWE-Fuse、结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 的 KCoEvo 这类“结构化代码智能”相比,今天的训练焦点从结构表示进一步转向过程监督。《Understanding by Reconstruction》不再只利用仓库快照,而是从约 300k 仓库反向生成约 4B token 的开发轨迹,并做 20B token 持续预训练;《ExecVerify》则直接给中间执行步骤可验证奖励,把 7B 模型平均推理分数从 60.8 提到 80.8。变化点在于:模型不只是看结构和结果,而是开始显式学习规划、读取、执行和中间状态。

安全治理从原则设计走向可验证执行证据

Continuing

安全与治理仍是连续主题,但今天更偏向可操作工件。结构化代码智能、长时智能体与 Agent 安全前移 (2026-03-08) 讨论 Agent 安全前移到数据流治理,软件工程代理转向真实评测,证据驱动流程与协议安全同步升温 (2026-03-10) 提到协议化连接走向安全与治理设计;今天 Conduit 把浏览器代理每一步操作写成 SHA-256 哈希链,并在会话结束用 Ed25519 签名,生成含 action log、hash chain、signature、public key 的 proof bundle。相比早前更偏架构和协议层的治理讨论,这里已经出现可直接接入 MCP 工作流的审计组件。

代码智能转向过程监督与可验证推理

代码与软件工程研究继续把关注点从“最终代码”推到“过程轨迹”。《Understanding by Reconstruction》用约 300k GitHub 仓库反向合成约 4B token 的开发轨迹,再对 Llama-3-8B-Instruct 做 20B token 持续预训练。结果显示,这类带规划、读取、编写和调试痕迹的数据,能同时带动长上下文、代码生成和部分代理任务。另一侧,《ExecVerify》把代码执行推理拆成可验证中间步骤,用白盒强化学习把 7B 模型平均分从 60.8 拉到 80.8,并把收益迁移到代码生成。两篇工作共同说明,代码智能正在从“学结果”走向“学过程”。

Representative sources

软件工程代理走向语言专用与低副作用修复

软件工程代理这条线继续落到更具体的仓库操作上,但今天更强调语言特定工具链。《Resolving Java Code Repository Issues with iSWE Agent》把 issue 修复拆成定位与编辑两个子代理,并给定位阶段接入 7 个只读 Java 静态分析工具。它在 Multi-SWE-bench Java 子集 128 例和 SWE-PolyBench Java 子集 165 例上报告接近或达到最优,同时在同基座模型下把 API 成本压到其他领先系统的 2× 到 3× 更低。与只靠通用 bash/code 执行相比,这类“规则 + 模型”设计更像企业仓库场景。

Representative sources

评测从通过率转向部署质量与低成本验证

今天另一条强信号是,评测开始明显变得更贴近真实部署。《Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation》不再只看仿真通过,而把语法、综合、功能和硬件质量接成一条链。作者在 32 个模型、202 个 Verilog 任务、每题 5 次采样上发现,best-of-5 pass rate 平均会比 Global HQI 高 7.5 分,说明“能跑”不等于“能落地”。同样地,《From Verification to Herding》也在重新定义软件验证,主张用更少样本逼近最优:EZR 在 63 个任务上用 32 个样本达到平均 90% optimality。两者都在推动评测从单点成功率转向质量与成本更完整的闭环。

Representative sources

安全能力评测与代理审计并行升温

安全与治理主题今天仍在,但表达方式更工程化。《TOSSS》把软件安全能力变成真实 CVE 修复前后代码二选一任务,覆盖 14 个模型、每个模型 500 个 C/C++ 与 500 个 Java 样本;分数区间约 0.48 到 0.89,并显示显式安全提示平均还能带来 +0.021 到 +0.029 提升。另一边,Conduit 则把浏览器代理行为固化成带 SHA-256 哈希链和 Ed25519 签名的 proof bundle,让网页操作具备可验证审计证据。前者在测安全判断,后者在补执行审计,合起来体现出“安全不只看模型输出,也看过程可追责”。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施OlderVLA转向未来动力学、运行时增强与接触密集操作