TestCase-Eval
收藏TestCase-Eval 数据集概述
📝 摘要
TestCase-Eval是一个用于系统评估大语言模型(LLMs)在测试用例生成方面性能的新基准。该数据集包含来自Codeforces平台的500个算法问题和100,000个人工编写的解决方案,主要关注两个核心任务:
- 错误覆盖率:衡量LLM生成的测试集是否能探测多样化的输入场景并覆盖广泛的潜在故障模式。
- 错误暴露:评估LLM是否能生成特定输入,以暴露特定错误的代码实现。
📊 数据集组成
数据集在Hugging Face上提供,包含以下组件:
- problem:500个来自CodeForces的竞争性编程问题。
- submission_log:500个问题的1310万条用户提交的错误解决方案的完整历史记录,包括错误类型、发生错误的测试用例索引和编程语言。
- submission_all:包含118,611个人工编写的错误解决方案(平均每个问题237个),用于任务1(错误覆盖率任务)。
- submission_lite:按比例采样的子集,包含10,000个人工编写的错误解决方案(平均每个问题20个),用于任务2(错误暴露任务)。
🚀 快速开始
安装
bash git clone https://github.com/FlowRays/TestCase-Eval.git pip install -r requirements.txt
生成测试用例
bash bash scripts/run_api_models.sh bash scripts/run_vllm_models.sh
运行评估
bash bash scripts/run_eval.sh
📚 引用
如果TestCase-Eval对您的研究有帮助,请引用我们的论文: bibtex @misc{yang2025llmsgeneratehighqualitytest, title={Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure}, author={Zheyuan Yang and Zexi Kuang and Xue Xia and Yilun Zhao}, year={2025}, eprint={2506.12278}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2506.12278}, }
🙏 致谢
所有数据集均收集自CodeForces。




