Topic summary

safety

2 trends · 1 idea
Trend briefs
2
Idea briefs
1
Latest
2026-W11

Trend briefs

2 trends

代码代理闭环深化,MCP与可验证治理同步升温

本周最清楚的变化是:代理研究继续升温,但真正推进的不是“更像助手”,而是“更像可测试、可治理的工程系统”。代码代理、评测、MCP基础设施和执行层治理几条线开始互相连上。代码侧,研究从单次补全转向过程学习。SWE-Fuse、UnderstandingbyReconstruction、ExecVerify这类工作都在强调训练轨迹、步骤奖励和调试过程本身。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1
2026-03-05

VLA走向真实部署:按需推理、物理约束与多模态感知同步升温

今天的机器人论文很集中地指向一个主题:把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行,只在必要时唤醒慢速VLM;Act-Think-Abstain则先判断复杂度,再决定执行、思考或拒绝。两者都在解决同一个现实问题:不是每一步都值得重推理。

Idea briefs

1 idea

代码代理闭环深化,MCP与可验证治理同步升温

本周更值得做的机会集中在控制面补齐,而不是再造一个更聪明的代理。证据比较扎实的方向有三类:一是把真实 PR 评测、噪声约束和 MCP 工具筛选结合起来,做代码审查代理的上线决策与路由控制;二是把 MCP 浏览器、人工接管和可验证证据链结合起来,做可审计的授权网页自动化;三是把工具最小暴露与命令执行拦截结合起来,做面向代码或运维代理的执行策略网关。以上想法都直接对应本周新出现或明显升温的能力拼图,且各自都有明确的第一批用户与可执行验证步骤…

Opportunities3 opportunities · 6 evidence links