five

SWT-Bench

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/logic-star-ai/SWT-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于GitHub上流行的代码库,包含了现实世界的问题、确切的错误修复和黄金测试用例,形成了一个基准。此外,该数据集允许分析测试生成方法的性能及其与代码修复设置的交互作用。任务旨在通过自动测试生成,对软件程序中的错误修复进行测试和验证。

This dataset is built upon popular code repositories on GitHub, containing real-world problems, exact bug fixes and golden test cases, thus forming a benchmark. Additionally, this dataset enables the analysis of the performance of test generation methods and their interactions with code repair settings. The task aims to test and validate bug fixes in software programs via automated test generation.
提供机构:
logic-star-ai
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SWT-Bench是一个基准数据集,用于评估大语言模型在真实世界软件问题测试生成上的性能,要求模型基于GitHub代码库和问题生成能重现问题的测试用例。该数据集包含多个版本(如Lite和Verified)和提示格式,并提供了完整的评估工具链和结果分析支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作