面向代码代理训练的开发过程数据重建工具链
为代码智能团队提供一套“开发轨迹数据工厂”,把现有仓库与 CI 记录重建为需求、定位、读取、修改、调试、验证的过程样本,并产出可用于训练、离线评测和回放审计的数据格式。
以前缺的是可规模化的过程构造方法和能验证步骤质量的训练目标;现在这两件事同时出现,意味着“过程数据”不再只是研究概念,而可以成为企业代码助手的专门数据层。
一方面,Understanding by Reconstruction 显示可从约 300k 仓库反向合成 4B token 开发轨迹并提升长上下文与代码能力;另一方面,ExecVerify 证明中间执行状态可以被白盒验证并直接用于强化学习,而不只是模仿解释文本。
选取 20–50 个有完整 issue、PR、CI 记录的内部仓库,先做最小版本重建:生成文件读取顺序、修改序列、失败测试到修复测试的轨迹;再用这些轨迹训练一个小型补丁排序器或定位器,对比仅用仓库快照的基线。
- Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining: 仓库快照训练正被“重建开发轨迹”替代,说明可用来训练或评测代理的过程数据开始具备明确方法与规模。
- ExecVerify: White-Box RL with Verifiable Stepwise Rewards for Code Execution Reasoning: 步骤级可验证奖励已证明能显著提升代码执行推理,并迁移到代码生成,说明中间状态监督开始有直接产品价值。