TestCase-Eval

github2025-06-18 更新2025-06-25 收录

下载链接：

https://github.com/FlowRays/TestCase-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

TestCase-Eval是一个新的基准测试数据集，用于系统评估LLMs在测试用例生成中的表现。它包括来自Codeforces平台的500个算法问题和100,000个人工编写的解决方案。数据集重点关注两个关键任务：故障覆盖率和故障暴露。

TestCase-Eval is a novel benchmark dataset for systematically evaluating the performance of Large Language Models (LLMs) in test case generation. It includes 500 algorithmic problems from the Codeforces platform and 100,000 manually written solutions. This dataset focuses on two key tasks: fault coverage and fault exposure.

创建时间：

2025-06-14

原始信息汇总

TestCase-Eval 数据集概述

📝 摘要

TestCase-Eval是一个用于系统评估大语言模型（LLMs）在测试用例生成方面性能的新基准。该数据集包含来自Codeforces平台的500个算法问题和100,000个人工编写的解决方案，主要关注两个核心任务：

错误覆盖率：衡量LLM生成的测试集是否能探测多样化的输入场景并覆盖广泛的潜在故障模式。
错误暴露：评估LLM是否能生成特定输入，以暴露特定错误的代码实现。

📊 数据集组成

数据集在Hugging Face上提供，包含以下组件：

problem：500个来自CodeForces的竞争性编程问题。
submission_log：500个问题的1310万条用户提交的错误解决方案的完整历史记录，包括错误类型、发生错误的测试用例索引和编程语言。
submission_all：包含118,611个人工编写的错误解决方案（平均每个问题237个），用于任务1（错误覆盖率任务）。
submission_lite：按比例采样的子集，包含10,000个人工编写的错误解决方案（平均每个问题20个），用于任务2（错误暴露任务）。

🚀 快速开始

安装

bash git clone https://github.com/FlowRays/TestCase-Eval.git pip install -r requirements.txt

生成测试用例

bash bash scripts/run_api_models.sh bash scripts/run_vllm_models.sh

运行评估

bash bash scripts/run_eval.sh

📚 引用

如果TestCase-Eval对您的研究有帮助，请引用我们的论文： bibtex @misc{yang2025llmsgeneratehighqualitytest, title={Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure}, author={Zheyuan Yang and Zexi Kuang and Xue Xia and Yilun Zhao}, year={2025}, eprint={2506.12278}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2506.12278}, }

🙏 致谢

所有数据集均收集自CodeForces。

搜集汇总

数据集介绍

构建方式

TestCase-Eval数据集构建于Codeforces平台上的500个算法问题及其对应的100,000个人工编写的解决方案。通过系统性地收集13.1百万条用户提交的错误解决方案历史记录，数据集进一步细化为包含118,611条错误解决方案的完整数据集和10,000条按比例抽样的精简数据集。每个问题平均涵盖237个错误解决方案，确保了数据集的广泛性和代表性。

特点

TestCase-Eval专注于评估大型语言模型在测试用例生成中的表现，特别强调故障覆盖率和故障暴露两个核心任务。数据集不仅包含丰富的竞争性编程问题，还提供了详细的错误类型、测试用例索引和编程语言信息，为研究提供了多维度的分析基础。其独特的结构设计使得模型能够在多样化的输入场景中进行测试，从而全面评估其生成高质量测试用例的能力。

使用方法

使用TestCase-Eval时，研究人员需首先克隆项目仓库并安装依赖项。通过运行提供的脚本，可以生成测试用例并进行评估。数据集分为完整版和精简版，适用于不同规模的研究需求。评估过程自动化程度高，支持对19种先进开源和专有大型语言模型的性能进行系统分析，为算法问题测试用例生成研究提供了便捷的工具链。

背景与挑战

背景概述

TestCase-Eval数据集由Zheyuan Yang等研究人员于2025年提出，旨在系统评估大语言模型（LLMs）在测试用例生成任务中的表现。该数据集基于Codeforces平台上的500道算法题目及118,611份人工编写的错误解决方案构建，聚焦于测试用例生成领域的两个核心问题：故障覆盖率和故障暴露能力。作为软件工程领域的重要基准，TestCase-Eval填补了算法问题测试用例自动生成评估体系的空白，为LLMs在软件测试中的应用提供了标准化度量框架。

当前挑战

在解决测试用例生成这一领域问题时，TestCase-Eval面临的主要挑战在于如何量化评估测试用例的质量。传统指标难以准确捕捉测试用例对潜在错误的覆盖广度和针对性暴露能力。构建过程中的挑战则体现在数据集的规模与质量平衡上：需要从1300万条原始提交记录中筛选具有代表性的错误解决方案，同时保持问题难度分布和错误类型的多样性。此外，建立与人类专家评估相一致的自动化评价体系也需克服语义理解和逻辑推理方面的技术难题。

常用场景

经典使用场景

TestCase-Eval数据集在软件工程领域为大型语言模型（LLMs）的测试用例生成能力提供了系统化评估框架。该数据集通过整合Codeforces平台上的500个算法问题和10万个人工编写的错误解决方案，构建了覆盖广泛错误模式的测试场景。其核心应用体现在对LLMs生成测试用例的故障覆盖率和故障暴露能力进行量化分析，为模型优化提供数据支撑。研究人员可基于该基准测试，精确评估不同模型在生成边界条件、异常输入等复杂测试场景中的表现差异。

衍生相关工作

基于TestCase-Eval的评估框架，学术界衍生出多个重要研究方向。微软研究院开发的TestGen-LLM首次将故障覆盖率指标引入模型微调过程；斯坦福团队提出的AdaptiveTester则利用该数据集构建了动态测试用例生成系统。这些工作共同推动了《IEEE Transactions on Software Engineering》等顶级期刊对LLMs测试能力评估标准的建立，形成了一系列被广泛引用的方法论研究。

数据集最近研究