Trend brief · 2026-03-12

MCP代理基础设施与生产治理同步升温

今天的材料很集中：代理研究继续升温，但重心已从“能不能做”转向“怎么稳定接入、怎么被治理、怎么进入真实流程”。最有代表性的不是单一模型分数，而是一批围绕MCP、审计、沙箱和行业约束的系统设计。首先，MCP正在变成代理系统的通用接线层。Auto-Browser把真实浏览器做成MCP原生服务，不只支持页面观察和动作，还补上了noVNC人工接管、登录态复用、上传审批和指标接口。

6 tracked topics

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

Software Intelligence

mcp agent-infrastructure observability governance requirements-engineering healthcare-agents

Source markdown

Overview

Evolution

3 signals3 history windows

今天与prev1、prev2、prev3相比，连续性最强的不是“更多代理”，而是“把代理做成可治理系统”。不同的是，证据已从论文里的训练、评测与修复，延伸到浏览器、记忆、文档、追踪和沙箱这些运行时部件。一条持续主线是可测试与可审计。prev2的SpecOps、prev3的TDAD已把代理看作需要验证的对象；

代理工程的“可测试与可审计”主线继续加强

Continuing

History

代码智能走向过程学习，软件代理转向真实评测与可审计执行 (2026-03-11)软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)代码代理走向可验证闭环，安全审计与研发自动化同步升温 (2026-03-09)

和prev_1里ExecVerify、prev_2里SpecOps、prev_3里TDAD一样，今天的材料仍把代理当成可测试、可约束的工程对象。只是证据从论文评测进一步延伸到工具与平台层：Auto-Browser提供make doctor、make release-audit与/readyz等可检查流程；AgentSentinel宣称可用约3行代码加入tracing、replay和circuit breakers；Microcks案例显示32个squad、500+人员、每周250万+ API调用，并把开发测试周期缩短约66%。

关注点从训练配方转向代理运行时与接口层

Shifting

History

代码智能走向过程学习，软件代理转向真实评测与可审计执行 (2026-03-11)软件工程代理转向真实评测，证据驱动流程与协议安全同步升温 (2026-03-10)

相较prev_1侧重Understanding by Reconstruction与ExecVerify这类训练和推理过程监督，今天更明显的变化是重心下移到运行时基础设施。Auto-Browser把浏览器直接做成MCP服务，并支持登录态复用与人工接管；local-memory-mcp提供6个MCP记忆工具和supersedes版本链；Proof SDK公开至少13条路由，把文档协作与agent bridge打通。主题从“模型怎么学过程”转向“系统怎么承载过程”。

面向高约束行业的专用多代理架构开始冒头

Emerging

History

代码智能走向过程学习，软件代理转向真实评测与可审计执行 (2026-03-11)

今天出现了更强的垂直场景化代理系统信号。QUARE在需求工程上给出较完整实验：5个案例、180次运行、98.2% compliance coverage、94.9% semantic preservation。医院方向的When OpenClaw Meets Hospital则提出受限执行环境、预审计技能和page-indexed memory，明确限制代理只能调用技能或读写共享文档，并给出O(d)更新复杂度。相比prev_1更偏通用软件工程代理，这类“高约束行业+专用治理架构”更具体了。

Clusters

MCP接口层从单工具走向成套代理基础设施

这一组关注把浏览器、记忆与文档系统做成可接入的代理基础设施。Auto-Browser把真实浏览器封装为MCP服务，支持noVNC人工接管、命名登录态复用，以及/mcp与/mcp/tools端点。local-memory-mcp强调本地优先记忆，提供6个MCP工具，并用supersedes版本链与warning-first写入减少记忆污染。Proof SDK则把协作文档、溯源与agent HTTP bridge打通，公开至少13条路由，说明“代理可操作文档”正在从单点功能走向系统层接口。

Representative sources

Auto-Browser – An MCP-native browser agent with human takeover — Lvcid
Feedback on a local-first MCP memory system for AI assistants? — ptobey
Proof SDK: Editor, collab server, provenance model, and agent HTTP bridge — azhenley

代理进入生产治理阶段：可观测、可测试、可约束

今天另一条强信号是，社区不再只谈“让代理能做事”，而是补上调试、测试、审批与审计。AgentSentinel类工具主打3行代码接入tracing、replay和circuit breakers，可记录session_id、模型名与token使用。企业侧文章则把contract-first、sandbox和高保真mock当作上线前基础设施；文中给出BNP Paribas有32个squad、500+开发与测试人员使用Microcks，每周处理250万+ API调用，开发测试周期缩短约66%。这说明代理工程开始明显向生产治理靠拢。

Representative sources

How are people debugging multi-agent AI workflows in production? — skhatter
Before you let AI agents loose, you'd better know what they're capable of — chhum
Auto-Browser – An MCP-native browser agent with human takeover — Lvcid

多代理从通用编排转向高约束领域系统

研究论文里，最扎实的定量结果来自把多代理结构化用于高约束领域。QUARE把需求工程拆成5个质量属性代理加1个协调器，用最多3轮协商、0.85相似度阈值筛冲突、再做KAOS与合规校验，在5个案例、3个随机种子、共180次运行中达到98.2% compliance coverage、94.9% semantic preservation和4.96/5.0 verifiability。医疗方向的OpenClaw Meets Hospital则把这种思路推向系统架构：用受限命名空间、预审计技能和page-indexed memory处理医院动态流程，虽然暂无实验指标，但给出了每次变更O(d)维护复杂度与最多O(L)增量调用的工程约束。

Representative sources

QUARE: Multi-Agent Negotiation for Balancing Quality Attributes in Requirements Engineering — Haowei Cheng; Milhan Kim; Foutse Khomh; Teeradaj Racharak; Nobukazu Yoshioka; Naoyasu Ubayashi; …
When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows — Wenxian Yang; Hanzheng Qiu; Bangqun Zhang; Chengquan Li; Zhiyong Huang; Xiaobin Feng; …

Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.

View repo 5-minute quickstart