Trends

30 trends

代码代理闭环深化,MCP与可验证治理同步升温

本周最清楚的变化是:代理研究继续升温,但真正推进的不是“更像助手”,而是“更像可测试、可治理的工程系统”。代码代理、评测、MCP基础设施和执行层治理几条线开始互相连上。代码侧,研究从单次补全转向过程学习。SWE-Fuse、UnderstandingbyReconstruction、ExecVerify这类工作都在强调训练轨迹、步骤奖励和调试过程本身。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1
2026-W11

机器人VLA走向闭环造数、主动感知与部署级系统优化

本周机器人研究的共识更清晰了:VLA不再只追求更大,而是补齐数据、恢复、感知和部署这几块最影响落地的短板。一条最强主线是闭环造数。Seed2Scale说明,具身数据不必持续重度依赖人工示教。随后RADAR、RoboClaw进一步把任务生成、执行、验证和复位并入系统流程,意味着“收数据”本身正在变成自动化能力,而不是训练前的人力准备。第二条主线是VLA增强重心后移。本周有效的方法不只来自预训练。

Evolution4 signals · Continuing 1 · Shifting 1 · Emerging 2

代理调试深度、工具路由与结构化约束成为新焦点

今天的研究更少谈“代理会不会做”,更多谈“怎样让它更可靠地做”。重点集中在三件事:更深的调试、更精的工具路由,以及把结构化约束重新接回真实任务。首先,代理式编码进入更细的协作层。TrustOverFear给出较强实证:同样是ClaudeSonnet4,只改系统提示的动机框架,信任式NoPUA在9个真实调试场景里发现隐藏问题51vs32,调查步骤42vs23,而恐惧式PUA没有显著收益。

Evolution4 signals · Continuing 2 · Shifting 1 · Emerging 1
2026-03-15

VLA转向主动感知、轻量多模态融合与部署级系统优化

今天的机器人论文很集中:VLA继续升温,但重点不只是更大会说,而是更会看、更会并行、也更接近真实部署。最强信号来自主动感知。VLA-Thinker不再把图像当成一次性上下文,而是允许模型在推理中再次查看局部区域。这个改动很直接,但效果很强:在LIBERO上做到97.5%,比OpenVLA-OFT高6.5个百分点;在Long子集高10.4个百分点,说明它主要补上了长时程过程里的消歧和纠错。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

代理发现、终端调度与可验证程序搜索升温

今天的材料很分散,但主线很清楚:代理生态开始补“怎么找到、怎么管理、怎么落地”这些缺的层,而不只是继续堆模型能力。Joy代表了一类新的代理基础设施。它不只提供MCP接口,还把代理注册、搜索、担保和端点验证放进同一个网络。这里最值得注意的不是性能数字,而是它明确把开放代理生态里的信任问题产品化了。另一条明显趋势是,终端正在变成多代理工作的控制面。

Evolution3 signals · Continuing 2 · Emerging 1

可验证反馈、PR测试与执行层安全推动代理进入真实流程

今天的主题很集中:AI系统开始从“会生成”走向“可验证、可约束、可接入真实流程”。最有证据力度的,不是更高模型分数,而是反馈回路、测试绑定和执行层防线。一个最强信号来自低资源代码能力。USC的Idris研究表明,给GPT-5更多文档帮助有限,但把编译器报错接入循环后,56道题的成功率可从39%拉到96%。这类结果很重要,因为它说明在规则明确的任务里,外部可验证器能直接放大模型能力。

Evolution4 signals · Continuing 2 · Shifting 1 · Emerging 1

MCP代理基础设施与生产治理同步升温

今天的材料很集中:代理研究继续升温,但重心已从“能不能做”转向“怎么稳定接入、怎么被治理、怎么进入真实流程”。最有代表性的不是单一模型分数,而是一批围绕MCP、审计、沙箱和行业约束的系统设计。首先,MCP正在变成代理系统的通用接线层。Auto-Browser把真实浏览器做成MCP原生服务,不只支持页面观察和动作,还补上了noVNC人工接管、登录态复用、上传审批和指标接口。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1
2026-03-12

机器人研究转向闭环造数、持续学习VLA与灵巧操作基础设施

今天的主线很清楚:机器人研究继续围绕VLA、长时程和灵巧操作推进,但重点从“更大模型”转向“更完整闭环”。最强信号有三条:自动造数开始具备自复位能力,VLA开始显示天然持续学习与主动感知能力,灵巧操作则明显下沉到示教采集和接触仿真基础设施。RADAR和RoboClaw代表了闭环机器人的两种实现路径。前者把任务生成、执行、验证、复位串成自动采集系统,后者把数据采集、策略学习与部署代理统一起来。

Evolution3 signals · Continuing 2 · Shifting 1

代码智能走向过程学习,软件代理转向真实评测与可审计执行

今天的研究焦点很集中:代码与软件工程方向继续升温,但大家讨论的已不只是“模型更会写代码”,而是“过程是否可学、结果是否可验、执行是否可审计”。最强的一条线是过程监督。一类工作开始反思,静态仓库快照并不能代表真实开发。UnderstandingbyReconstruction把仓库反向展开成需求、规划、读取、编写和调试轨迹,再用这些轨迹继续预训练模型。另一类工作则直接奖励中间执行状态。

Evolution3 signals · Continuing 2 · Shifting 1
2026-03-11

VLA转向未来动力学、运行时增强与接触密集操作

今天的机器人论文很集中,主线不是更大的通用模型,而是让VLA更会“预见”、更能落地,也更擅长接触密集型操作。最强信号来自两篇未来建模工作。DiT4DiT和FutureVLA都不再满足于静态视觉表征,而是把“动作之后世界会怎样变化”直接做进控制模型。前者把视频扩散与动作扩散联合训练,在LIBERO达到98.6%;后者把视觉约束与动作动力学分流建模,在LIBEROLong达到96.

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1

软件工程代理转向真实评测,证据驱动流程与协议安全同步升温

今天的主线很清楚:代理研究继续向软件工程与企业落地靠拢,但真正升温的不是“更多Agent”,而是“更可评测、更可约束、更可治理”。一个明显变化是,评测开始更像真实工程,而不是只看单一成功率。CR-Bench把代码审查代理放回真实PR场景,强调开发者真正关心的是有用反馈与噪声比例,而不只是多找几个问题。

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1
2026-03-10

机器人VLA转向灵巧操作、长时程恢复与多任务部署

今天的机器人研究很集中:大家不再只争论更大的端到端VLA,而是在补它真正落地时最容易失效的几块,尤其是灵巧操作、长时程控制、失败恢复和多任务部署。一个很强的信号是,灵巧操作正在成为VLA的新主战场。XL-VLA试图解决不同灵巧手动作空间彼此割裂的问题。它把动作先映射到共享潜在空间,再解码回具体手型,在4种灵巧手、10个任务上把总体成功率从约0.32提升到0.72。

Evolution4 signals · Continuing 2 · Shifting 1 · Emerging 1

代码代理走向可验证闭环,安全审计与研发自动化同步升温

今天的材料很集中。核心不是“Agent更多了”,而是“Agent更像工程系统了”。训练、验证、安全和上线开始被接成闭环。最强信号来自软件工程代理。SWE-Fuse不再把issue文本当成唯一入口,而是显式训练“没有靠谱issue也能靠测试和调试找问题”的能力。这种弱监督思路很务实,也更贴近真实仓库。它在SWE-benchVerified上把32B开源模型推到60.

Evolution3 signals · Continuing 1 · Shifting 1 · Emerging 1
2026-03-09

机器人VLA走向自动造数、后训练增强与交互式世界模型

今天的机器人论文很集中:大家不再只追求更大的通用模型,而是开始系统性补齐数据、后训练、世界模型和部署链路。一个更实用的机器人栈正在成形。最强信号来自“数据与增强方式”的变化。Seed2Scale证明,具身学习不必继续重度依赖人工示教。它只用4条种子示范,就能靠“小模型采集+大模型验真+目标策略学习”的闭环,把平均成功率拉到68.57%。

Evolution3 signals · Continuing 1 · Emerging 1 · Shifting 1
2026-W10

机器人VLA迈向可部署系统:按需推理、记忆插件与安全世界模型

本周机器人研究高度收敛。中心问题很明确:怎样把VLA和世界模型从“能做”推进到“能稳、能省、能上线”。一条主线是按需推理。不少系统不再默认每一步都调用大模型,而是让高层推理只在关键节点出现。这样既省算力,也更适合长时程任务。Tri-System是这一思路的代表:它在高层视觉语言模型和低层控制器之间加入Critic监控,执行正常时保持快速闭环,遇到停滞或异常再触发重规划。

代码代理进入真实工程闭环:仓库理解、端到端评测与安全治理升温

本周的软件工程与代码智能研究,主线非常清楚:代码代理正在从“会生成”转向“能在真实仓库里执行、验证并长期运行”。真正的竞争点,已经变成仓库理解、端到端评测、记忆管理和安全治理。一个明显变化是,研究越来越少讨论单次生成是否漂亮,越来越多讨论代理能否在真实工程里完成闭环。RAIM把目标放在仓库级新功能添加。BeyondSWE把任务扩展到跨仓库和依赖迁移。Echo则把检索、执行和验证接在一起。

2026-03-08

机器人具身智能转向轻量适配、长时序增强与部署一致性

机器人具身智能的日内论文,集中指向一个主题:让预训练模型更适合真实部署。方法普遍更轻、更模块化,也更强调长时序、杂乱环境与动作一致性。主要观察-适配方式更轻量。LoRA-SP不再用固定秩低秩适配,而是按输入动态选择活跃方向,减少了为不同任务反复调rank的成本。-时序能力开始“插件化”。TempoFit不改骨干参数,直接复用注意力缓存补时间记忆,说明很多VLA的瓶颈已从单步感知转到跨步状态追踪。

结构化代码智能、长时智能体与 Agent 安全前移

今天的材料集中传递出一个信号:AI系统正从“会生成”走向“能落地”。代码、智能体、安全与研究流程都在转向结构化约束、长期运行和人类把关。主要观察-代码任务更依赖结构化知识。这类进展不只是“更大模型”,而是把版本关系、程序图和演化路径显式引入生成与判断流程。-智能体开始按真实生产系统来设计。重点变成记忆、审计、回滚、异步运行,以及人何时介入。-安全问题前移。

2026-03-07

世界模型转向安全监测、4D时空建模与高效控制

这一天的核心信号是:世界模型正在脱离“通用生成”叙事,转向更可验证的安全、控制和时空预测任务。共同方法是引入结构先验,并把不确定性或几何约束直接变成可用能力。趋势一:世界模型进入安全监测与闭环控制机器人论文把概率世界模型用于运行时失效检测。做法是先用视觉基础模型压缩观测,再用世界模型的不确定性做异常分数。它不需要手工枚举失败模式,更适合高维、多模态、时序场景。

软件工程代理走向执行闭环,基础设施与可靠性评测同步升温

这一天的研究与项目,主线很清楚:AI代理正从“会回答”走向“会执行”,但可靠性与治理开始成为更硬的门槛。主要观察-软件工程是最活跃的落地面。Modulus把多个编码代理放进共享记忆与隔离工作区。Echo则更进一步,把检索、生成、执行、验证连成闭环。相比单纯代码补全,这更接近真实开发流程。-基础设施层开始成形。Turn代表语言级约束思路,想把类型、安全和持久执行内建进去。

2026-03-06

VLA部署短板修补加速:语言服从、视角鲁棒与真实采摘落地

今天的论文集中在一个很明确的方向:让机器人基础模型更能在真实环境里工作。重点不是再做更大模型,而是补语言理解、视角变化、长任务控制和部署评估这些短板。主要观察-语言约束开始被单独诊断。RestoringLinguisticGroundinginVLAModelsviaTrain-Free…指出VLA存在“语言失明”,即看到场景后会忽视矛盾指令。

代码智能体走向自纠错、级联部署与可验证安全

今天的代码智能体研究更像在补“工程化短板”。重点不只是模型更强,而是更会自修复、更省延迟、更能记住仓库上下文,也更容易被审计。主要观察-自纠错成为代码模型新卖点。ReflexiCoder把“生成→反思→修正”直接纳入强化学习训练。目标是在没有外部测试器时,也能完成一定程度的自主调试。-代码补全开始强调级联架构。

2026-03-05

VLA走向真实部署:按需推理、物理约束与多模态感知同步升温

今天的机器人论文很集中地指向一个主题:把VLA从“能做演示”推进到“能在真实环境里稳定工作”。最强信号来自按需推理、物理约束、多模态感知和更紧凑的内部表示。主要观察-按需推理正在成为VLA标配。Tri-System用Critic监控执行,只在必要时唤醒慢速VLM;Act-Think-Abstain则先判断复杂度,再决定执行、思考或拒绝。两者都在解决同一个现实问题:不是每一步都值得重推理。

软件代理从任务增强走向执行闭环与领域可靠性

今天的软件代理研究,明显从会写代码走向会准备任务、会搭环境、会长期运行。亮点不只在模型能力,而在前处理、执行闭环和工程约束。主要观察-任务输入正在成为核心杠杆。CodeScout表明,先对仓库做小范围预探索,再补全复现步骤、期望行为和修复提示,可以明显提升真实缺陷修复表现。相比直接让代理开工,这种前置增强更稳。-可执行环境自动化正在补齐短板。

2026-03-04

机器人研究转向记忆评测、结构化控制与大规模基准

这一天的机器人研究很集中。关键词不是单纯“更大模型”,而是更清楚地拆解能力来源:记忆、基准、结构化控制,以及持续学习。主要观察-记忆成为最明确的主题,但研究焦点已从“给模型加历史”转向“什么任务需要什么记忆”。-基准建设继续加速。一类工作扩大仿真规模,另一类工作开始补真实世界统一评测。-结构先验重新变重要。双臂和灵巧手都在用更可组合的表示替代端到端混合控制。

代码智能评测转向真实工程:端到端交付、长期维护与生产监督并进

今天的代码研究热点很集中:评测正在更贴近真实软件工程。论文不再满足于“单题做对”,而是开始检验模型能否交付应用、长期维护代码库,并在真实生产轨迹中被稳定评估。主要观察-从生成代码到交付软件:VibeCodeBench把评测对象升级为完整Web应用。结果很直接:即使头部模型,端到端成功率也还不高。尤其一旦涉及支付、邮件、数据库等外部集成,性能会明显下滑。

2026-03-03

世界模型加速转向结构化状态,机器人VLA同步迈向可部署与可修复

本期的共同主题是:世界模型不再只追求“生成得像”,而是更重视记忆、动态和部署可用性。机器人与仿真两条线正在靠近,目标都是更稳定地理解世界变化,并把这种能力接到真实控制上。趋势一:机器人控制开始重视时序世界理解,而不只是动作拟合CoWVLA把世界模型的时间推理与潜在动作表示结合起来,避免在训练中浪费大量容量去重建静态背景。它在LIBERO上平均成功率达到0.

代码智能体从“会写”转向“能验证、能协作、能落地”

今天的软件工程方向很集中:大家不再只比谁更会写代码,而是开始补齐代码智能体在真实任务、验证闭环和生产落地上的短板。主要观察-评测变难了。BeyondSWE把任务从单仓库局部修复,扩展到跨仓库、领域知识、依赖迁移和从文档生成仓库。结果显示,当前模型在更真实任务上的成功率仍偏低。-验证正在前移。从编译骨架、概率式回归测试,到变更感知的GUI差分测试,研究重点正从“生成答案”转向“证明它没坏”。

2026-03-02

VLA走向连续动力学、快速推理与长时程记忆

今天的机器人研究很集中。焦点几乎都落在视觉-语言-动作模型(VLA)上。主线很清楚:让动作更连续,让推理更快,让长期决策更稳。主要观察1.动作表示正在升级过去不少VLA输出离散动作点或固定长度动作块。今天的工作更强调连续性和世界变化。-Pri4R让模型在训练时额外预测3D点轨迹,学习“动作之后世界会怎么变”。这类监督不进入测试期,因此部署开销不变。

代码代理转向仓库理解、性能闭环与安全底座

今天的主题很集中:代码智能不再只比“能不能生成”,而是开始比“能否理解仓库、证明判断、优化性能、守住安全,并在多轮协作中持续记忆”。研究和开源项目都在把代理从一次性助手推向可持续的软件执行体。趋势一:仓库级代码代理更重视架构理解与可证据推理RAIM表明,仓库级新功能添加已经成为重要目标。重点不只是改一段代码,而是找到正确插入点,生成多种实现方案,再做影响评估与回归风险筛选。