GitTaskBench

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/Nicole-Yi/GitTaskBench

下载链接

链接失效反馈

官方服务：

资源简介：

GitTaskBench是一个专门设计用于评估基于代码的智能代理在解决现实世界任务时的能力的基准数据集。它包含了54个代表性任务，分布在7个不同的领域，如图像处理、视频处理、语音处理等，这些任务都是从稳定的GitHub仓库中精心挑选出来的。每个任务都有明确的输入要求、输出预期和评估指标。该数据集旨在填补现有代理基准测试在现实世界应用方面的空白。

创建时间：

2025-09-05

原始信息汇总

GitTaskBench 数据集概述

数据集详情

数据集描述

GitTaskBench 是一个基准数据集，旨在评估基于代码的智能代理利用 GitHub 仓库解决现实世界任务的能力。该数据集包含 7 个领域的 54 个代表性任务，精心策划以反映现实世界的复杂性和经济价值。每个任务与固定的 GitHub 仓库相关联，以确保评估的可重现性和公平性。

策划方： QuantaAlpha 研究团队
语言： 主要为英语（任务描述、文档）
许可证： cc-by-nc-sa-4.0

数据集来源

仓库： https://github.com/QuantaAlpha/GitTaskBench
论文： https://arxiv.org/abs/2508.18993
组织： https://quantaalpha.github.io

用途

直接用途

评估基于 LLM 的代理（如 RepoMaster、SWE-Agent、Aider、OpenHands）
基准测试仓库级推理和执行
真实世界软件工程任务的训练/测试框架

超出范围用途

不适用于个人数据处理
不设计为直接训练 NLP 模型的数据集
不适用于需要私有/敏感数据集的商业应用

数据集结构

任务数量： 54 个，涵盖 7 个领域
领域包括：
- 图像处理
- 视频处理
- 语音处理
- 生理信号处理
- 安全与隐私
- 网络爬虫
- 办公文档处理

每个任务指定：

输入要求（文件类型、格式）
输出期望
评估指标（任务特定，如准确率阈值、图像质量的 PSNR、视频的 Hasler-Bülthoff 指标）

数据集创建

策划理由

当前代理基准测试通常缺乏现实世界基础。GitTaskBench 通过专注于反映开发人员如何使用 GitHub 项目解决实际问题的实用、仓库驱动的任务来填补这一空白。

源数据

选择符合严格标准（稳定性、完整性、可重现性）的 GitHub 仓库
策划映射到固定仓库的真实世界任务
定义跨任务的一致评估协议

注释

提供任务特定的评估指标作为注释
除基准定义外，无人为标记的数据注释

偏见、风险和限制

偏见： 仓库和任务选择可能反映对特定领域的研究偏见
风险： 基准测试假设 GitHub 可访问性；如果仓库未来发生变化，任务相关性可能降低
限制： 任务是策划和固定的；未涵盖所有真实世界案例

引用

如果使用 GitTaskBench，请引用论文：

bibtex @misc{ni2025gittaskbench, title={GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging}, author={Ziyi Ni and Huacan Wang and Shuo Zhang and Shuo Lu and Ziyang He and Wang You and Zhenheng Tang and Yuntao Du and Bill Sun and Hongzhang Liu and Sen Hu and Ronghao Chen and Bo Li and Xin Li and Chen Hu and Binxing Jiao and Daxin Jiang and Pin Lyu}, year={2025}, eprint={2508.18993}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2508.18993}, }

更多信息

维护者： QuantaAlpha 研究团队
联系方式： https://github.com/QuantaAlpha/GitTaskBench/issues

搜集汇总

数据集介绍

构建方式

在代码智能体评估领域，GitTaskBench的构建遵循严谨的学术规范。研究团队从开源GitHub项目中筛选出符合稳定性、完整性和可复现性严格标准的代码仓库，进而精心设计了54个跨7大领域的代表性任务。每个任务均与固定的代码仓库关联，确保评估过程的一致性与公平性，同时制定了统一的任务描述框架和基于客观指标的评价协议。

特点

该数据集的核心特征体现在其多模态任务设计和真实场景还原度上。涵盖图像处理、视频分析、语音识别、生理信号处理等七大领域，每个任务均配备具体的输入输出规范及量化评估指标（如PSNR图像质量指标、Hasler-Bülthoff视频评估标准）。任务设计强调经济价值与工程实践的结合，支持对代码智能体的仓库级推理与执行能力进行多维评估。

使用方法

研究人员可通过访问关联的GitHub仓库获取具体任务定义与评估框架。每个任务包含唯一标识符、领域分类、自然语言描述及输入输出规范，使用者需按照既定协议配置代码环境并执行任务。评估时需依据任务特定的度量标准（如精度阈值、信号处理准确率）进行性能验证，所有任务设计均确保在可控环境下实现可复现的基准测试。

背景与挑战

背景概述

随着人工智能在软件工程领域的深入应用，代码智能体的实际任务执行能力评估成为关键研究方向。GitTaskBench由QuantaAlpha研究团队于2025年创建，其核心研究聚焦于通过GitHub仓库解决现实世界任务的智能体性能评估。该数据集涵盖图像处理、视频处理、语音处理等七大领域的54项代表性任务，每个任务均绑定固定仓库以确保可复现性。这一基准的建立显著推动了智能体在真实开发环境中的适应性研究，为多模态代码处理提供了标准化评估框架。

当前挑战

GitTaskBench致力于解决代码智能体在复杂仓库环境中执行多模态任务的评估挑战，包括跨领域代码理解、动态依赖管理及实时执行验证等核心问题。在构建过程中，研究团队需克服仓库稳定性维护、任务代表性筛选以及评估指标统一化等难题，尤其需确保开源项目的许可兼容性与数据敏感性规避，这些挑战共同塑造了数据集的高可靠性与实用价值。

常用场景

经典使用场景

在代码智能体研究领域，GitTaskBench作为评估基准被广泛应用于测试模型在真实代码仓库环境中的任务解决能力。研究者通过该数据集系统性地评估智能体在图像处理、视频分析、语音处理等七个领域的跨模态任务执行效果，每个任务均关联固定的GitHub仓库以确保实验可复现性。这种设计使得该数据集成为衡量智能体代码理解、工具调用和复杂问题分解能力的黄金标准。

实际应用

在实际工业场景中，GitTaskBench为开发智能编程助手提供了重要参考依据。企业可基于该基准测试自动化代码生成系统的性能，特别是在文档处理、安全检测、网络爬虫等具体应用场景中的表现。数据集涵盖的多领域任务使其成为评估智能体在真实软件开发流水线中实用性的有效工具，为产业界筛选高性能代码助手提供数据支撑。

衍生相关工作

该数据集的发布催生了一系列创新研究，包括RepoMaster、SWE-Agent等先进代码智能体的开发。研究者基于其多模态任务特性提出了新的评估范式，推动了仓库级代码理解技术的发展。相关成果不仅改进了智能体的工具使用策略，还促进了跨模态任务执行框架的创新，为构建下一代智能软件开发系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集