GitTaskBench
收藏GitTaskBench 数据集概述
数据集详情
数据集描述
GitTaskBench 是一个基准数据集,旨在评估基于代码的智能代理利用 GitHub 仓库解决现实世界任务的能力。该数据集包含 7 个领域的 54 个代表性任务,精心策划以反映现实世界的复杂性和经济价值。每个任务与固定的 GitHub 仓库相关联,以确保评估的可重现性和公平性。
- 策划方: QuantaAlpha 研究团队
- 语言: 主要为英语(任务描述、文档)
- 许可证: cc-by-nc-sa-4.0
数据集来源
- 仓库: https://github.com/QuantaAlpha/GitTaskBench
- 论文: https://arxiv.org/abs/2508.18993
- 组织: https://quantaalpha.github.io
用途
直接用途
- 评估基于 LLM 的代理(如 RepoMaster、SWE-Agent、Aider、OpenHands)
- 基准测试仓库级推理和执行
- 真实世界软件工程任务的训练/测试框架
超出范围用途
- 不适用于个人数据处理
- 不设计为直接训练 NLP 模型的数据集
- 不适用于需要私有/敏感数据集的商业应用
数据集结构
- 任务数量: 54 个,涵盖 7 个领域
- 领域包括:
- 图像处理
- 视频处理
- 语音处理
- 生理信号处理
- 安全与隐私
- 网络爬虫
- 办公文档处理
每个任务指定:
- 输入要求(文件类型、格式)
- 输出期望
- 评估指标(任务特定,如准确率阈值、图像质量的 PSNR、视频的 Hasler-Bülthoff 指标)
数据集创建
策划理由
当前代理基准测试通常缺乏现实世界基础。GitTaskBench 通过专注于反映开发人员如何使用 GitHub 项目解决实际问题的实用、仓库驱动的任务来填补这一空白。
源数据
- 选择符合严格标准(稳定性、完整性、可重现性)的 GitHub 仓库
- 策划映射到固定仓库的真实世界任务
- 定义跨任务的一致评估协议
注释
- 提供任务特定的评估指标作为注释
- 除基准定义外,无人为标记的数据注释
偏见、风险和限制
- 偏见: 仓库和任务选择可能反映对特定领域的研究偏见
- 风险: 基准测试假设 GitHub 可访问性;如果仓库未来发生变化,任务相关性可能降低
- 限制: 任务是策划和固定的;未涵盖所有真实世界案例
引用
如果使用 GitTaskBench,请引用论文:
bibtex @misc{ni2025gittaskbench, title={GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging}, author={Ziyi Ni and Huacan Wang and Shuo Zhang and Shuo Lu and Ziyang He and Wang You and Zhenheng Tang and Yuntao Du and Bill Sun and Hongzhang Liu and Sen Hu and Ronghao Chen and Bo Li and Xin Li and Chen Hu and Binxing Jiao and Daxin Jiang and Pin Lyu}, year={2025}, eprint={2508.18993}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2508.18993}, }
更多信息
- 维护者: QuantaAlpha 研究团队
- 联系方式: https://github.com/QuantaAlpha/GitTaskBench/issues




