GitGoodBench

github2025-05-29 更新2025-06-11 收录

下载链接：

https://github.com/JetBrains-Research/git-good-bench

下载链接

链接失效反馈

官方服务：

资源简介：

在这个仓库中，我们发布了与论文《GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git》相关的代码。我们发布了论文中提出的基准测试套件，并在HuggingFace上提供了详细的数据集卡片。

In this repository, we have released the code related to the paper 'GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git'. We have published the benchmark suite proposed in the paper and provided detailed dataset cards on HuggingFace.

创建时间：

2025-05-20

原始信息汇总

GitGoodBench 数据集概述

数据集基本信息

数据集名称: GitGoodBench
相关论文: "GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git"
发布平台: HuggingFace
数据集变体:

数据集内容

核心功能: 评估AI代理在Git操作上的性能
数据来源: 通过RepositoryDataScraper工具从Git仓库抓取
测试数据: 提供预打包的测试仓库(repos/testing-repositories.zip)

技术实现

数据抓取工具:
- 主入口: src/repository_data_scraper/main.py
- 支持本地并发处理
- 大规模处理推荐使用Map-Reduce平台(YTsaurus)
数据处理流程:
- 预处理脚本: src/data_processing_scripts/mappers.py
- 数据集分层: src/data_processing_scripts/downsample_dataset.py

基准测试

基线实现: 位于src/agent_client目录
- 包含工具实现、场景环境管理和评估逻辑
- 移除了专有代码，不可直接运行
结果分析:
- 分析工具: src/notebooks中的Jupyter笔记本
- 结果数据库: data/vcs-agent-evaluation-metadata.db

使用说明

测试准备: 需解压测试仓库到repos/testing-repositories目录
依赖安装: 需根据操作系统安装对应的requirements文件

搜集汇总

数据集介绍

构建方式

GitGoodBench数据集的构建过程体现了对版本控制系统智能化研究的严谨态度。研究团队采用RepositoryDataScraper工具从实际Git仓库中提取原始数据，通过Map-Reduce平台实现大规模仓库挖掘，并运用分层抽样技术创建具有代表性的数据集划分。在预处理阶段，开发团队精心设计了包括数据清洗、特征提取在内的多道工序，相关算法实现均公开在数据处理脚本中，确保了研究过程的可复现性。

特点

该数据集在智能代码管理领域展现出独特的价值维度。其核心优势在于真实Git操作场景的全面覆盖，包含完整版本控制历史轨迹和多样化开发情境。数据集采用分层抽样策略保证样本均衡性，同时提供Lite和Train等不同规模版本以适应各类研究需求。配套发布的SQLite数据库更完整记录了基线模型的评估结果，为后续研究提供了可靠的对比基准。

使用方法

研究者可通过HuggingFace平台便捷获取GitGoodBench的各个版本。使用前需将测试仓库解压至指定目录，并配置相应Python依赖环境。数据集支持本地并发处理，但建议在分布式平台上执行大规模分析任务。配套提供的Jupyter notebooks包含完整的数据分析流程，而基线实现代码虽移除了专有部分，仍保留了关键的工具实现和评估框架，可作为智能体开发的参考模板。

背景与挑战

背景概述

GitGoodBench是由JetBrains研究团队开发的新型基准测试数据集，专注于评估AI代理在Git版本控制系统中的性能表现。该数据集的构建源于对智能化代码管理工具的迫切需求，旨在为开发者社区提供标准化评估框架。数据集通过采集真实代码仓库的Git操作历史，系统性地模拟了软件开发过程中常见的版本控制场景。其创新性在于首次将Git操作行为转化为可量化的评估指标，为AI代理在代码版本管理领域的能力测评提供了重要基准。

当前挑战

GitGoodBench面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确界定AI代理在复杂Git操作中的性能评估维度，包括分支管理、冲突解决等高阶能力的量化标准；在构建技术层面，处理大规模代码仓库的历史数据提取与清洗工作面临工程复杂度，特别是保持Git操作序列的时序完整性与上下文关联性。同时，数据集的标注过程需要克服版本控制行为语义理解的准确性挑战，确保每个测试场景都能真实反映开发实践中的关键决策点。

常用场景

经典使用场景

在软件工程和人工智能交叉领域，GitGoodBench数据集为评估AI代理在Git操作中的性能提供了标准化测试环境。该数据集通过模拟真实代码仓库中的版本控制场景，如分支管理、合并冲突解决和提交历史追溯，成为衡量AI代理在复杂开发任务中表现的关键工具。研究者可基于此数据集构建基准测试，系统评估不同AI模型理解版本控制工作流的能力。

衍生相关工作

基于该数据集衍生的研究包括智能代码审查系统的开发，其中JetBrains团队提出的RepositoryDataMapper架构成为后续工作的参考框架。多篇顶会论文引用该数据集验证了强化学习模型在版本控制任务中的有效性，部分研究进一步扩展了原始测试场景，增加了分布式协作等复杂用例。

数据集最近研究