Trend brief · 2026-03-12

MCP代理基础设施与生产治理同步升温

今天的材料很集中:代理研究继续升温,但重心已从“能不能做”转向“怎么稳定接入、怎么被治理、怎么进入真实流程”。最有代表性的不是单一模型分数,而是一批围绕MCP、审计、沙箱和行业约束的系统设计。首先,MCP正在变成代理系统的通用接线层。Auto-Browser把真实浏览器做成MCP原生服务,不只支持页面观察和动作,还补上了noVNC人工接管、登录态复用、上传审批和指标接口。

6 tracked topics
Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

今天的材料很集中:代理研究继续升温,但重心已从“能不能做”转向“怎么稳定接入、怎么被治理、怎么进入真实流程”。最有代表性的不是单一模型分数,而是一批围绕MCP、审计、沙箱和行业约束的系统设计。首先,MCP正在变成代理系统的通用接线层。Auto-Browser把真实浏览器做成MCP原生服务,不只支持页面观察和动作,还补上了noVNC人工接管、登录态复用、上传审批和指标接口。

3 signals3 history windows

今天与prev1、prev2、prev3相比,连续性最强的不是“更多代理”,而是“把代理做成可治理系统”。不同的是,证据已从论文里的训练、评测与修复,延伸到浏览器、记忆、文档、追踪和沙箱这些运行时部件。一条持续主线是可测试与可审计。prev2的SpecOps、prev3的TDAD已把代理看作需要验证的对象;

代理工程的“可测试与可审计”主线继续加强

Continuing

和prev_1里ExecVerify、prev_2里SpecOps、prev_3里TDAD一样,今天的材料仍把代理当成可测试、可约束的工程对象。只是证据从论文评测进一步延伸到工具与平台层:Auto-Browser提供make doctormake release-audit/readyz等可检查流程;AgentSentinel宣称可用约3行代码加入tracing、replay和circuit breakers;Microcks案例显示32个squad、500+人员、每周250万+ API调用,并把开发测试周期缩短约66%。

关注点从训练配方转向代理运行时与接口层

Shifting

相较prev_1侧重Understanding by ReconstructionExecVerify这类训练和推理过程监督,今天更明显的变化是重心下移到运行时基础设施。Auto-Browser把浏览器直接做成MCP服务,并支持登录态复用与人工接管;local-memory-mcp提供6个MCP记忆工具和supersedes版本链;Proof SDK公开至少13条路由,把文档协作与agent bridge打通。主题从“模型怎么学过程”转向“系统怎么承载过程”。

面向高约束行业的专用多代理架构开始冒头

Emerging

今天出现了更强的垂直场景化代理系统信号。QUARE在需求工程上给出较完整实验:5个案例、180次运行、98.2% compliance coverage、94.9% semantic preservation。医院方向的When OpenClaw Meets Hospital则提出受限执行环境、预审计技能和page-indexed memory,明确限制代理只能调用技能或读写共享文档,并给出O(d)更新复杂度。相比prev_1更偏通用软件工程代理,这类“高约束行业+专用治理架构”更具体了。

MCP接口层从单工具走向成套代理基础设施

这一组关注把浏览器、记忆与文档系统做成可接入的代理基础设施。Auto-Browser把真实浏览器封装为MCP服务,支持noVNC人工接管、命名登录态复用,以及/mcp/mcp/tools端点。local-memory-mcp强调本地优先记忆,提供6个MCP工具,并用supersedes版本链与warning-first写入减少记忆污染。Proof SDK则把协作文档、溯源与agent HTTP bridge打通,公开至少13条路由,说明“代理可操作文档”正在从单点功能走向系统层接口。

Representative sources

代理进入生产治理阶段:可观测、可测试、可约束

今天另一条强信号是,社区不再只谈“让代理能做事”,而是补上调试、测试、审批与审计。AgentSentinel类工具主打3行代码接入tracing、replay和circuit breakers,可记录session_id、模型名与token使用。企业侧文章则把contract-first、sandbox和高保真mock当作上线前基础设施;文中给出BNP Paribas有32个squad、500+开发与测试人员使用Microcks,每周处理250万+ API调用,开发测试周期缩短约66%。这说明代理工程开始明显向生产治理靠拢。

Representative sources

多代理从通用编排转向高约束领域系统

研究论文里,最扎实的定量结果来自把多代理结构化用于高约束领域。QUARE把需求工程拆成5个质量属性代理加1个协调器,用最多3轮协商、0.85相似度阈值筛冲突、再做KAOS与合规校验,在5个案例、3个随机种子、共180次运行中达到98.2% compliance coverage、94.9% semantic preservation和4.96/5.0 verifiability。医疗方向的OpenClaw Meets Hospital则把这种思路推向系统架构:用受限命名空间、预审计技能和page-indexed memory处理医院动态流程,虽然暂无实验指标,但给出了每次变更O(d)维护复杂度与最多O(L)增量调用的工程约束。

Representative sources

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

Newer可验证反馈、PR测试与执行层安全推动代理进入真实流程Older机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施