CORECODEBENCH
收藏arXiv2025-07-04 更新2025-07-10 收录
下载链接:
https://github.com/AGI-Eval-Official/CoreCodeBench, https://huggingface.co/collections/tubehhh/corecodebench-68256d2faabf4b1610a08caa
下载链接
链接失效反馈官方服务:
资源简介:
CORECODEBENCH是一个可配置的多场景仓库级基准数据集,旨在评估大型语言模型在工程级代码处理方面的性能。该数据集通过CorePipe自动化流程从GitHub仓库中生成,包括开发、bug修复和测试驱动开发三种类型的原子问题,以及三种复合问题类型,难度可灵活调整。数据集的设计考虑了工程实践中代码的多样性和复杂性,通过实验表明,CORECODEBENCH能够有效地评估LLMs在工程级代码开发中的实际能力和适应性。
CORECODEBENCH is a configurable multi-scenario repository-level benchmark dataset designed to evaluate the performance of large language models (LLMs) in engineering-grade code processing. Generated from GitHub repositories via the CorePipe automated workflow, this dataset includes three types of atomic problems: development, bug fixing, and test-driven development, alongside three types of composite problems, with flexibly adjustable difficulty levels. The dataset’s design accounts for the diversity and complexity of code in real-world engineering practices. Experimental results demonstrate that CORECODEBENCH can effectively assess the actual capabilities and adaptability of LLMs in engineering-grade code development.
提供机构:
上海交通大学, AGI-EVAL, 美团
创建时间:
2025-07-04
搜集汇总
数据集介绍

构建方式
CORECODEBENCH通过CorePipe自动化流程构建,该流程从GitHub仓库中提取高质量测试用例。具体而言,首先基于活跃度、测试覆盖率和代码复杂度筛选PyPI库中的Python项目;随后通过动态追踪建立源文件与测试文件的映射关系,并构建跨文件的函数调用树;最后针对核心代码段生成开发、缺陷修复和测试驱动开发三类原子问题,并通过超参数调节灵活组合为复合问题。整个流程无需人工干预,确保了数据生成的标准化与可扩展性。
特点
该数据集具有多场景、高可控性和强可靠性三大特征。其覆盖开发、缺陷修复和测试驱动开发等真实工程场景,通过函数调用树实现问题定位的精确控制,并采用双重质量检验机制(LLM监督与人工核查)确保数据质量。数据集包含1,545个有效问题,平均代码行数达34.14行,较现有基准更能反映工程级代码的复杂性。特别设计的复合问题可评估模型对多函数协同工作的理解能力,而难度可调的设置则为模型能力边界研究提供了可能。
使用方法
使用CORECODEBENCH时需遵循场景化评估框架。对于单函数问题,模型需根据代码上下文完成指定类型的代码生成或修正;多函数问题则要求模型基于函数调用关系实现协同开发。评估采用Pass@1和PassRate双指标,前者衡量单次生成正确率,后者反映模型相对于基线的改进程度。用户可通过调整超参数ν(问题数量)和d(调用深度)定制评估难度,实验配置需统一采用官方推荐的温度参数(temperature=0)以确保结果可复现。
背景与挑战
背景概述
CORECODEBENCH是由上海交通大学、AGI-EVAL和美团的研究团队于2025年提出的一个可配置多场景仓库级基准测试。该数据集旨在解决大型语言模型(LLMs)在工程级代码处理能力评估上的不足。现有仓库级基准测试主要关注单一场景(如代码生成或错误修复),未能充分捕捉真实世界软件工程的多样性和复杂性。CORECODEBENCH通过CorePipe自动化流水线,将代码仓库转化为包含开发、错误修复和测试驱动开发等多种场景的测试用例,为评估LLMs在真实工程环境中的表现提供了全面且灵活的框架。
当前挑战
CORECODEBENCH面临的主要挑战包括:1)领域问题挑战:现有基准测试难以系统评估LLMs在跨文件上下文推理和实现规划等复杂工程场景中的能力;2)构建过程挑战:测试用例生成过程中需要确保核心代码段的选择逻辑约束,避免过度测试非关键区域,同时需解决基于拉取请求清理方法导致的测试定位固定和数据可靠性低的问题。这些挑战直接影响基准测试在评估LLMs工程级任务表现时的有效性和灵活性。
常用场景
经典使用场景
CORECODEBENCH作为一款多场景、可配置的仓库级基准测试工具,其经典使用场景在于全面评估大型语言模型(LLM)在真实软件工程环境中的代码处理能力。该数据集通过模拟开发(Development)、缺陷修复(BugFix)和测试驱动开发(TDD)三类原子任务,以及由它们组合而成的复合任务,系统性地检验模型在长上下文理解、跨文件推理和工程级代码实现等核心能力。研究者可利用其模块化设计,灵活调整任务难度和复杂度,尤其适合评估模型在需要同时处理主函数与工具函数、或修复关联性缺陷等实际开发场景中的表现。
解决学术问题
CORECODEBENCH有效解决了当前代码评估领域的两大核心挑战:场景单一性以及测试用例的可控性与可靠性问题。通过自动化管道CorePipe生成的多样化任务,该数据集首次实现了对LLM在完整软件开发生命周期中能力的系统测评,填补了现有基准测试(如SWEBench、REPOEXEC)仅关注代码生成或缺陷修复单一路径的空白。其创新性的质量检验机制(如信息增益评分IG Filter)和动态难度调控,为学术界提供了兼具工程代表性和科学严谨性的评估标准,推动了代码智能领域从片段级评估向仓库级评估的范式转变。
衍生相关工作
该数据集已催生多个标志性研究工作:DeepSeek团队基于其发现的模型规划能力缺陷,提出了面向仓库级任务的层次化推理框架;Qwen2.5-Coder通过CORECODEBENCH的复合任务测试优化了跨文件注意力机制。其构建方法论还启发了BigCodeBench等后续基准的设计,推动了代码翻译、模块化开发等新评估维度的出现。论文中揭示的LLM在调试任务中表现滞后现象,直接促成了DebugBench等专项评测工具的诞生,形成代码智能评估的生态体系。
以上内容由遇见数据集搜集并总结生成



