ContextBench

github2026-02-11 更新2026-02-13 收录

下载链接：

https://github.com/EuniAI/ContextBench

下载链接

链接失效反馈

官方服务：

资源简介：

ContextBench是一个用于评估代码代理中上下文检索的综合基准，包含来自66个仓库的1,136个问题解决任务，涵盖八种编程语言，每个任务都附有人工标注的黄金上下文。

ContextBench is a comprehensive benchmark for evaluating context retrieval in code agents. It encompasses 1,136 problem-solving tasks sourced from 66 repositories across eight programming languages, with each task paired with manually annotated golden context.

创建时间：

2026-02-06

原始信息汇总

ContextBench 数据集概述

数据集基本信息

名称：ContextBench
简介：一个用于评估代码智能体中上下文检索能力的综合性基准测试。
核心目标：对代码智能体在解决问题过程中如何检索和使用代码上下文进行过程导向的评估，弥补现有评估主要关注最终任务成功的不足。

数据集规模与构成

任务数量：包含 1,136 个问题解决任务。
来源：涵盖 66 个代码仓库。
编程语言：涉及八种编程语言。
数据增强：每个任务均包含人工标注的黄金上下文。

评估框架与指标

评估类型：自动化评估框架，追踪智能体的执行轨迹。
核心指标：在整个问题解决过程中，测量上下文召回率、精确率和效率。
评估粒度：在文件、符号、代码片段和编辑位置等多个粒度上进行比较和计算。

数据集获取与使用

主要获取地址：https://huggingface.co/datasets/Contextbench/ContextBench
数据加载方式：
- 完整数据集（1,136 个实例）：load_dataset("Contextbench/ContextBench", "default")
- 已验证子集（500 个实例）：load_dataset("Contextbench/ContextBench", "contextbench_verified")
评估运行命令：python -m contextbench.evaluate --gold data/full.parquet --pred path/to/trajectory.traj.json --out results.jsonl

开发信息

许可证：Apache License 2.0
合作机构：南京大学、伦敦大学学院
致谢：感谢所评估的智能体框架（Agentless, SWE-agent等）的开发者，以及 Mistral AI 和 Amazon Web Services (AWS) 提供的 API 支持。

搜集汇总

数据集介绍

构建方式

在代码智能体研究领域，对上下文检索能力的评估长期缺乏细粒度标准。ContextBench的构建过程始于从66个开源仓库中系统性地收集了1,136个跨八种编程语言的议题解决任务。每个任务均辅以人工精确标注的黄金上下文，这些标注涵盖了解决特定问题所必需的文件、符号及代码片段。数据集进一步通过自动化框架对智能体在问题解决过程中的轨迹进行追踪与解析，从而建立起一个能够从文件、符号、跨度及编辑位置等多个粒度衡量上下文检索性能的评测基准。

特点

该数据集的核心特征在于其过程导向的评估范式，突破了传统仅关注最终任务成功率的局限。ContextBench提供了人类标注的黄金上下文作为中间真值，使得研究者能够精确度量智能体在检索过程中的召回率、精确率与效率。其覆盖八种主流编程语言及多样化的代码仓库，确保了评估的广泛代表性。数据集还包含已验证的子集，并支持对多种主流代码智能体框架的轨迹进行统一解析与比较，为深入理解智能体的上下文利用机制提供了结构化数据基础。

使用方法

研究人员可通过Hugging Face平台便捷加载ContextBench数据集，并利用其提供的统一评估框架进行分析。使用流程包括：通过`load_dataset`函数加载完整或已验证的数据子集，将其转换为Parquet等格式；随后，运行评估脚本，通过指定黄金标准文件与智能体轨迹文件，自动化地计算多粒度性能指标。该框架集成了仓库克隆、代码符号提取与轨迹解析功能，支持对Agentless、SWE-agent等多种智能体进行评测，并可将结果提交至在线排行榜进行横向比较。

背景与挑战

背景概述

在人工智能驱动的代码智能体领域，基于大型语言模型的代理在自动化问题解决任务中展现出卓越性能，然而传统评估范式多聚焦于最终任务成功率，缺乏对问题解决过程中代码上下文检索与利用机制的深入洞察。为填补这一研究空白，南京大学与伦敦大学学院的研究团队于2026年联合推出了ContextBench基准数据集。该数据集旨在系统评估代码智能体在解决实际编程问题时的上下文检索能力，其核心研究问题在于解构智能体在问题解决轨迹中的上下文选择与利用模式，从而为理解与提升代码智能体的推理过程提供关键中间信号。该基准通过引入人工标注的黄金上下文与多粒度评估框架，显著推动了代码智能体评估从黑箱式端到端测试向透明化过程分析的范式转变，对软件工程与人工智能的交叉领域产生了深远影响。

当前挑战

ContextBench数据集所针对的核心领域挑战在于，如何超越传统以任务成功率为单一指标的评估体系，对代码智能体在复杂软件仓库中进行精准上下文检索的能力进行量化与比较。这一挑战具体体现在：智能体需在庞大的代码库中高效定位与当前问题最相关的代码片段、符号及文件视图，并平衡检索的召回率与精确率。在数据集构建过程中，研究团队面临多重技术挑战，包括从多样化的开源项目中采集具有代表性的问题解决任务、设计可靠的人工标注流程以确定“黄金上下文”的边界，以及开发自动化评估框架以精确解析智能体执行轨迹并与标注上下文进行多粒度比对。这些挑战共同指向了代码智能体研究中对可解释性与过程优化的迫切需求。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，代码智能体的性能评估长期聚焦于任务完成度，而忽略了其内部决策过程。ContextBench作为一款专为评估代码智能体上下文检索能力而设计的基准数据集，其经典使用场景在于系统性地剖析智能体在解决编程问题时的信息获取行为。研究者通过该数据集能够追踪智能体在代码库中探索文件、符号与代码片段的轨迹，从而量化其检索上下文的召回率、精确率与效率，为深入理解智能体工作机理提供了关键工具。

衍生相关工作

围绕ContextBench的评估范式与发现，已催生了一系列关注代码智能体内部过程分析的衍生研究。其揭示的“智能体复杂框架仅带来边际收益”的“苦涩教训”，促使学界重新审视智能体架构设计的有效性。相关经典工作开始深入探讨大语言模型在代码任务中表现出的“重召回轻精度”的检索偏好，并尝试设计新的算法或训练策略来弥补探索上下文与实际使用上下文之间的鸿沟，推动了过程可解释性在智能编程领域的深入发展。

数据集最近研究