趋势

244 条趋势 · 第 1 / 21 页

日 · 2026-07-23 · Software Intelligence

智能体评测触及模糊项目，可靠性机制转移到 harness

在过去几天聚焦于编码循环中的可执行反馈之后，今天的证据拓宽了控制面。新的基准测试智能体处理不完整的产品意图和混合型办公任务；可靠性机制则在预先定义的检查点交付记忆、逻辑推理和审查。结果仍处于早期阶段：几项研究缺乏广泛的量化比较，其中一个工作流虽然提升了可审计性，但成本显著增加。

编码智能体智能体评测可靠性 Harness 人工监督

日 · 2026-07-22 · Embodied AI

可执行接口正成为提升机器人可靠性的共同抓手

前两个有内容的日期强调了与行动相关的状态和结构化接口。今天的证据在部署、评估和训练中延伸了这一信号：当学习模型的输出被收窄为明确目标、任务相关场景、稳定动力学或可执行轨迹时，表现会更好。结果涵盖实体机器人和仿真环境，但其中几项研究仍局限于特定任务，或缺少受控的硬件对比。

embodied AI Robot Learning World Models Vision Language Action Models

日 · 2026-07-22 · Software Intelligence

可执行反馈优于仅依赖提示的编码工作流

近期关于编码代理控制机制的研究仍在推进，但今天的证据表明，控制信号正变得更加针对具体任务。性能分析器、变异补丁、静态分析和仓库上下文在循环中引导生成并验证结果。报告的收益幅度较大，但它们来自不同基准，不能据此确定某一种架构总体上更优。

编码代理程序修复代码优化测试生成

日 · 2026-07-21 · Embodied AI

结构化动作接口支撑具身世界模型

围绕动作相关状态的前一日信号仍在延续，但今天的五篇论文更直接地将结构引入世界建模。视觉轨迹、物理分解和可模拟的回放记录，将动作与预测后果连接起来。证据来自异质的预印本，且评估大多彼此独立，因此它表明了一种共同的设计方向，而不是已经确定的最优架构。

具身世界模型机器人学动作表示真实到仿真

日 · 2026-07-21 · Software Intelligence

结构化上下文和执行反馈减少编码代理的浪费

近期围绕编码代理控制机制的关注仍在持续，但目前最有力的证据已转向代理循环内部的工作。语义化的代码仓库结构减少了重复探索和脆弱编辑，执行反馈则引导更低成本的恢复和更有力的功能检查。大多数收益仍来自作者报告或特定任务，因此尚未确立其对广泛生产应用的影响。

编码代理代码仓库智能执行反馈软件测试

日 · 2026-07-20 · Embodied AI

具身策略通过保留与行动相关的状态得到改进

当天最有力的证据强化了最近一次有内容的日度信号：可靠的具身控制依赖于能够在执行过程中持续保留的状态。持久化的三维物体信息、力历史、密集视觉图像块和结构化的未来引导，都能改善操作或规划。结果很有前景，但大多局限于单个机器人和基准；一项鲁棒性研究还表明，加入推理并不能可靠地让策略更安全。

embodied AI Vision Language Action Models Robot Memory 3D grounding

日 · 2026-07-20 · Software Intelligence

编码代理生成的输出正在合并前被精简和检查

围绕编码代理控制措施的近期工作仍在继续，但今天的证据主要集中在代理留下的产物上。轨迹感知的清理会移除冗余编辑，而覆盖率检查和明确的需求则能揭示仅凭测试通过可能遗漏的缺口。大多数结果来自单项研究或供应商数据，因此其对生产环境的广泛影响仍不确定。

编码代理软件质量测试覆盖率上下文管理

周 · 2026-W29 · Embodied AI

预测进入控制回路，而执行仍是严峻考验

近几周持续关注执行问题，但现有证据如今更加完整。视觉-语言-动作（VLA）策略利用未来状态预测、长历史和异步组件，同时控制运行时成本。RoboTTT 和 Jetson-PI 展示了这一设计带来的实际收益。IMBench 则弱化了这一信号：模型能够识别物理约束，但仍很少能将其转化为成功的闭环动作。现有结果来自仿真和有限的机器人试验，因此尚不能证明其已具备广泛部署的准备条件。

机器人学习视觉语言动作模型闭环控制预测性监督

周 · 2026-W29 · Software Intelligence

编码代理控制通过定向上下文和可执行证据提升了精确性

本周进一步强化了为期三周的证据积累：编码代理的性能取决于模型周围的系统。新的信号在于精确性：系统针对已识别的知识缺口获取上下文，同时将声明绑定到变更代码、确切的源状态或领域风险。结果覆盖基准测试和原型，但广泛部署证据仍然有限。

编码代理代理评估软件测试运行时验证

日 · 2026-07-19 · Software Intelligence

代理控制正在融入日常工作流界面

围绕工程化代理控制的近期势头仍在延续，但今天的证据显示，这些控制正进入日常的开发和部署界面。Sepo 在 GitHub 中记录工作流程，而一项 Qwen 试点将隐私原则转化为代码级要求。现有语料规模较小，且主要来自产品材料，独立的运行时评估很少。

代理工程编码代理隐私控制工作流可追溯性

日 · 2026-07-18 · Software Intelligence

代理可靠性正围绕模型进行工程化构建

近期对代理框架和可执行检查的关注，正以面向实现的形式延续。今天的材料将组织上下文、静态风险检测、可观测性和容量管理置于模型周围。证据具有实践性，但仍然有限：材料包括项目文档、监控仪表板和招聘信息，而不是受控的比较研究。

AI 代理框架工程代理安全可靠性

日 · 2026-07-17 · Embodied AI

闭环执行成为具身智能的决定性检验

当天的证据将近期对部署的关注点从单纯的推理速度扩展开来。IMBench 表明，识别物理约束并不能可靠地产生可执行行为；AC-VLA 和快慢驾驶则通过使学习或计算与控制回路相匹配来改善结果。大多数证据仍来自仿真，因此尚不能证明广泛的现实世界可靠性。

embodied AI Robot Control VLA models Physical Reasoning