ClassEval-Pro
收藏arXiv2026-04-30 更新2024-06-21 收录
下载链接:
https://doi.org/10.1145/nnnnnnn.nnnnnnn
下载链接
链接失效反馈官方服务:
资源简介:
ClassEval-Pro是由上海交通大学等机构联合构建的跨领域类级别代码生成基准数据集,包含300个任务覆盖11个领域。该数据集通过自动化三阶段流程构建,整合了2025年后GitHub真实代码,平均每个任务113行代码,具有严格的90%行覆盖率测试验证。数据集旨在评估大语言模型在构建完整类结构时的跨方法协调能力,解决现有基准在组合式代码创建评估上的不足。
ClassEval-Pro is a cross-domain class-level code generation benchmark dataset jointly constructed by Shanghai Jiao Tong University and other institutions. It includes 300 tasks covering 11 domains. This dataset is built via an automated three-stage pipeline, integrating real GitHub code from after 2025, with an average of 113 lines of code per task, and validated by strict 90% line coverage tests. The dataset aims to evaluate the cross-method coordination capability of large language models (LLMs) when constructing complete class structures, addressing the shortcomings of existing benchmarks in the evaluation of compositional code creation.
提供机构:
上海交通大学; 河海大学; 重庆大学
创建时间:
2026-04-30
搜集汇总
数据集介绍
构建方式
该数据集通过系统收集来自多个学科领域的计算实验构建而成,涵盖软件工程、数据库、人工智能、气候变化、医学研究和经济学等多个领域。数据来源包括顶级学术会议(如IEEE/ACM ICSE、VLDB和ESEC/FSE)和开放科学平台Zenodo。每个实验均包含源代码、数据文件、依赖项描述和详细执行步骤,确保其可复现性。数据集的构建过程还包括对实验的标准化文档整理,例如添加统一的README文件以明确复现步骤和环境要求。
特点
该数据集的主要特点在于其多样性和全面性,覆盖了多种编程语言(如Python、R、C++等)和复杂的计算环境(如多语言工作流和数据库依赖)。数据集中的实验规模差异显著,从简单的脚本到包含数万文件的复杂项目均有涵盖。此外,每个实验均经过严格的复现性验证,确保其在不同计算环境中的一致性。数据集还提供了详细的元数据,包括实验的领域分类、依赖项描述和执行状态,为研究者提供了丰富的上下文信息。
使用方法
该数据集可用于评估和比较不同复现性工具的有效性。研究者可以通过数据集中的实验测试其工具在多种计算环境下的表现,从而识别工具的局限性并推动改进。使用该数据集时,建议首先查阅每个实验的文档(如README文件),了解其依赖项和执行步骤。随后,可以在目标计算环境中配置相应的软件依赖,并按照提供的指令运行实验。数据集还支持生成复现性包(如Zip文件),便于在不同平台间共享和验证实验结果。
背景与挑战
背景概述
计算可重复性数据集(Computational Reproducibility Dataset)由波尔图大学和INESC TEC的研究团队于2025年提出,旨在解决科学计算领域的可重复性危机。该数据集由Lázaro Costa、Susana Barbosa和Jácome Cunha等学者主导开发,核心目标是建立一个标准化的基准测试集,用于评估和改进计算实验的可重复性工具。数据集涵盖了从简单脚本到复杂多语言工作流的多样化计算实验,涉及软件工程、人工智能、气候变化等多个学科领域。通过系统记录软件依赖、执行步骤和配置信息,该数据集为计算科学提供了重要的可重复性研究基础设施,对推动开放科学和实证研究方法论的发展具有深远意义。
当前挑战
该数据集主要面临两个层面的挑战:在领域问题层面,计算实验的可重复性受到计算环境多样性、软件快速迭代和文档不完善的严重影响,导致近53%的原始实验无法被成功复现;在构建过程层面,研究者需要克服实验选择偏差、跨学科数据整合以及标准化文档规范缺失等难题。具体表现为:依赖管理信息不完整(33%实验缺乏版本说明)、执行指导不足(50%实验缺少详细步骤),以及工具兼容性局限(无单一工具能支持所有实验类型)。这些挑战凸显了计算科学研究中系统化可重复性框架的迫切需求。
常用场景
经典使用场景
在计算科学领域,确保研究的可重复性是一个核心挑战。Computational Experiments Dataset通过提供一系列精心设计的计算实验,涵盖了从简单脚本到复杂的多语言工作流,为研究人员提供了一个标准化的基准测试平台。该数据集特别适用于评估和比较不同可重复性工具的效果,帮助研究者识别和解决在重现计算研究中遇到的常见问题。
实际应用
在实际应用中,Computational Experiments Dataset被广泛用于测试和优化可重复性工具,如Binder、Code Ocean和ReproZip等。这些工具利用数据集中的实验来验证其在不同计算环境下的适应性和效果。此外,数据集还被用于培训和教育,帮助新手研究人员理解和掌握计算实验的可重复性最佳实践。
衍生相关工作
该数据集衍生了一系列经典研究工作,如SciInc和Sciunit等工具的开发与评估。这些工具通过利用数据集中的实验,进一步推动了可重复性技术的发展。此外,数据集还激发了关于计算环境标准化和文档规范化的新研究,为科学计算领域的可重复性提供了更多理论支持和实践指导。
以上内容由遇见数据集搜集并总结生成



