bench-forge-v1
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/sai-santhosh/bench-forge-v1
下载链接
链接失效反馈官方服务:
资源简介:
Bench-Forge v1 是一个 SWE-bench 风格的基准测试数据集,旨在评估跨 Python、JavaScript 和 TypeScript 的编码代理。数据集包含 85 个实例,每个实例来自真实的 GitHub 拉取请求,并包含一个自包含的 Dockerfile、测试命令和解析脚本,以实现完全可复现的评估。数据集覆盖了 9 个不同的代码仓库,语言分布为 Python(22 个实例)、JavaScript(48 个实例)和 TypeScript(15 个实例)。每个实例包含多个字段,如唯一标识符、仓库信息、基础提交、补丁、测试补丁、问题陈述、提示文本、创建日期、语言、Dockerfile、测试命令、解析脚本以及通过/未通过的测试列表。数据集适用于代码生成、软件工程和评估任务,特别适合用于测试编码代理的性能。数据集采用 MIT 许可证,并提供了引用格式。
创建时间:
2026-03-23



