Recoleta Item Note

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

本文提出 LoCoEval，这是首个面向代码仓库开发场景的长程多轮对话上下文管理基准，用来评测代码助手在超长会话中是否还能记住并正确利用关键信息。作者还提出了一个仓库感知的记忆方法 Mem0^R，用于把对话信息和仓库信息统一管理。

context-management benchmarkcode-assistantrepository-levellong-horizon-dialoguememory-system

Summary

本文提出 LoCoEval，这是首个面向代码仓库开发场景的长程多轮对话上下文管理基准，用来评测代码助手在超长会话中是否还能记住并正确利用关键信息。作者还提出了一个仓库感知的记忆方法 Mem0^R，用于把对话信息和仓库信息统一管理。

作者构建了 LoCoEval：一个面向 repository-oriented long-horizon conversation 的自动化基准，基于现有仓库级函数生成数据集 DevEval 构造。
基准通过 LLM 驱动流水线生成真实感对话：先从目标函数参考实现中提取“关键信息项”，再故意制造部分“干扰信息”，并把这些信息分散到多轮用户查询中，模拟迭代需求、噪声输入和追溯式提问。
为保证评测真正依赖对话而不是仅靠仓库检索，作者先过滤掉那些“仅用仓库 RAG 就能解出”的样本；共从 1,825 个 DevEval 样本中剔除了 788 个。
LoCoEval 含 128 个样本、2 个子集（single-hop / multi-hop）、3 类任务（topic awareness、information item extraction、function generation）；每个样本平均 2.5 个需求、约 50 轮对话、总上下文约 64K~256K tokens。
在方法上，作者提出 Mem0^R：在 Mem0 基础上做仓库场景扩展，把对话历史与仓库信息写入统一记忆，并支持上下文感知的仓库检索。

基准规模与设置上，LoCoEval 共包含 128 samples / 768 tasks / 37 repos，每个样本 30~70 turns、1~4 requirements、64K~256K tokens。
实验覆盖 7 个基线方法（其中含 4 类代表性上下文管理方法）和 3 个先进 backbone LLM，说明评测具有较全面的比较范围。
作者明确声称：即便加入初步 RAG 适配，standalone LLMs 和现有通用上下文管理方法在仓库导向长程对话上仍面临“显著挑战”，尤其是 memory systems 对仓库信息利用不足。
作者进一步声称：Mem0^R 在整体表现上优于所有非 Oracle 基线，并且表现更稳健；文段未给出具体分数、Pass@k 数值或相对提升百分比，因此无法精确列出 benchmark 数字对比。
额外的最强具体结论是：仓库开发场景中的上下文管理不能只记会话，还必须把仓库代码/文本与会话共同建模；这是作者解释现有方法失效、以及 Mem0^R 优势的核心原因。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.