SWT-Bench
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/logic-star-ai/SWT-Bench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于GitHub上流行的代码库,包含了现实世界的问题、确切的错误修复和黄金测试用例,形成了一个基准。此外,该数据集允许分析测试生成方法的性能及其与代码修复设置的交互作用。任务旨在通过自动测试生成,对软件程序中的错误修复进行测试和验证。
This dataset is built upon popular code repositories on GitHub, containing real-world problems, exact bug fixes and golden test cases, thus forming a benchmark. Additionally, this dataset enables the analysis of the performance of test generation methods and their interactions with code repair settings. The task aims to test and validate bug fixes in software programs via automated test generation.
提供机构:
logic-star-ai
搜集汇总
数据集介绍

背景与挑战
背景概述
SWT-Bench是一个基准数据集,用于评估大语言模型在真实世界软件问题测试生成上的性能,要求模型基于GitHub代码库和问题生成能重现问题的测试用例。该数据集包含多个版本(如Lite和Verified)和提示格式,并提供了完整的评估工具链和结果分析支持。
以上内容由遇见数据集搜集并总结生成



