CONTEXTBENCH

Name: CONTEXTBENCH
Creator: 南京大学; 伦敦大学学院
Published: 2026-02-06 01:10:26
License: 暂无描述

arXiv2026-02-06 更新2026-02-07 收录

下载链接：

https://cioutn.github.io/context-bench/

下载链接

链接失效反馈

官方服务：

资源简介：

CONTEXTBENCH是由南京大学和伦敦大学学院联合创建的一个基准数据集，旨在评估编码代理在软件工程任务中的上下文检索能力。该数据集包含1136个任务，涵盖8种编程语言，来自66个代码仓库，并标注了522,115行人类验证的黄金上下文。数据来源包括SWE-bench Verified、Multi-SWE-bench等四个广泛使用的基准，经过去重和任务选择后，由专家开发者通过人工标注和验证流程构建。数据集的应用领域主要是软件工程和人工智能，旨在解决编码代理在检索和使用代码上下文时的效率和质量问题，为LLM推理提供有价值的中间信号。

CONTEXTBENCH is a benchmark dataset co-developed by Nanjing University and University College London (UCL), designed to evaluate the context retrieval performance of coding agents in software engineering tasks. The dataset contains 1,136 tasks covering 8 programming languages, sourced from 66 code repositories, with 522,115 lines of human-validated gold context annotations. Its data sources include four widely adopted benchmarks such as SWE-bench Verified and Multi-SWE-bench. After deduplication and task selection, the dataset was constructed by expert developers through a manual annotation and verification workflow. The primary application domains of this dataset are software engineering and artificial intelligence, aiming to address the efficiency and quality issues faced by coding agents when retrieving and utilizing code context, providing valuable intermediate signals for LLM inference.

提供机构：

南京大学; 伦敦大学学院

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码修复任务日益依赖大语言模型驱动的智能体，然而现有基准测试多聚焦于最终任务成功率，缺乏对智能体在解决问题过程中如何检索与利用代码上下文的深入洞察。CONTEXTBENCH的构建采用半自动化流程，首先从SWE-bench Verified、Multi-SWE-bench等四个广泛使用的基准中抽取任务，通过基于规则和嵌入向量的去重处理确保任务独特性。随后依据智能体可解性、编辑范围与分散度三个难度指标筛选出具有挑战性的任务，最终由经验丰富的开发者通过人机协同方式，基于真实补丁追踪代码依赖关系，迭代标注并验证出紧凑且充分的黄金上下文集合。

特点

该数据集的核心特点在于其过程导向的评估视角与精细的上下文标注。它包含来自66个代码仓库、涵盖8种编程语言的1136个问题解决任务，每个任务均附带了人工验证的黄金上下文，总计覆盖4548个文件中的522,115行代码。这些上下文在文件、代码块和行级别进行了标注，为评估智能体的中间状态提供了可靠基准。CONTEXTBENCH进一步引入了自动化评估框架，能够追踪智能体执行轨迹，并在不同粒度上计算上下文检索的召回率、精确率和F1分数，从而超越了传统端到端评估的局限，实现了对智能体行为更细粒度的分析。

使用方法

使用CONTEXTBENCH进行评估时，研究者首先需配置智能体环境以执行数据集中的问题解决任务。在智能体运行过程中，评估框架会通过插桩技术自动记录其检查的所有代码区域，形成执行轨迹。随后，利用tree-sitter工具解析对应代码仓库，将智能体检索的上下文与人工标注的黄金上下文映射到统一的结构化坐标系中进行对齐。基于此对齐结果，系统可在文件、AST块和行三个粒度上自动计算召回率、精确率、F1值以及过程级的动态指标（如效率、冗余度）。这种使用方法使得研究者能够定量分析不同模型或智能体框架在上下文检索能力上的差异，并洞察其问题解决过程中的行为模式。

背景与挑战

背景概述

随着基于大型语言模型的编码代理在自动化问题解决任务中展现出卓越性能，现有评估体系多聚焦于最终任务成功率，而忽视了代理在问题解决过程中如何检索与利用代码上下文的关键环节。为填补这一空白，南京大学与伦敦大学学院的研究团队于2026年推出了CONTEXTBENCH基准，旨在对编码代理的上下文检索能力进行过程导向的精细化评估。该基准汇集了来自66个代码仓库、涵盖八种编程语言的1136项问题解决任务，每项任务均附有人工标注的黄金上下文。通过构建自动化的评估框架，CONTEXTBENCH能够追踪代理的执行轨迹，并在问题解决的各个阶段量化上下文检索的召回率、精确率与效率，从而为理解编码代理的内部推理机制提供了重要工具，推动了软件工程领域评估方法从结果导向向过程分析的演进。

当前挑战

CONTEXTBENCH所应对的核心领域挑战在于如何准确评估编码代理在复杂代码库中检索关键上下文的能力，这一问题直接关系到代理在真实软件工程任务中的可靠性与效率。在构建过程中，研究团队面临多重挑战：首先，需从多个现有基准中筛选并去重任务，确保数据集的多样性与无冗余性，这涉及基于规则与嵌入向量的双重去重策略；其次，标注高质量的黄金上下文要求专家开发者深入追踪代码依赖关系，并通过人机协同流程进行迭代验证与精炼，以确保上下文的充分性与紧凑性；此外，设计跨文件、代码块与行级别的多层次评估指标，并实现代理检索上下文与黄金上下文的精确对齐，亦对评估框架的构建提出了严峻的技术要求。

常用场景

经典使用场景

在软件工程领域，代码代理的评估长期依赖于端到端的任务成功率指标，如SWE-bench等基准测试，但这些方法难以揭示代理在解决问题过程中如何检索和利用代码上下文。CONTEXTBENCH作为过程导向的评估基准，通过提供人类标注的黄金上下文和自动化的检索指标，填补了这一空白。其经典使用场景在于对基于大语言模型的代码代理进行细粒度分析，追踪代理在解决真实GitHub问题时检索代码上下文的轨迹，从而评估其上下文召回率、精确度和效率。该基准包含来自66个代码仓库的1,136个任务，覆盖八种编程语言，为研究者提供了深入理解代理行为的中介信号。

衍生相关工作

CONTEXTBENCH的推出催生了一系列相关研究，尤其是在代码代理的轨迹分析和失败诊断领域。基于该基准的黄金上下文和检索指标，研究者开发了更精细的代理评估框架，如针对多语言代码库的检索优化方法。同时，该工作启发了对代理检索模式的理论探索，例如研究代理在检索与利用上下文之间的差距，以及如何通过强化学习或规则引导来改善检索效率。此外，CONTEXTBENCH与现有基准（如SWE-bench和SWE-PolyBench）的互补性，促进了更全面的软件工程代理评估生态系统的形成。

数据集最近研究