GitGoodBench

Name: GitGoodBench
Creator: JetBrains Research & Technical University of Munich
Published: 2025-05-29 00:56:11
License: 暂无描述

arXiv2025-05-29 更新2025-05-30 收录

下载链接：

https://github.com/JetBrains-Research/git-good-bench

下载链接

链接失效反馈

官方服务：

资源简介：

GitGoodBench是一个用于评估人工智能代理在Git版本控制系统任务上的性能的新基准。该数据集由三个核心Git场景组成，从Python、Java和Kotlin的开源代码库中提取。GitGoodBench提供了三个数据集：一个包含900个样本的综合评估套件，一个包含120个样本的快速原型版本，以及一个包含17469个样本的训练语料库。

提供机构：

JetBrains Research & Technical University of Munich

创建时间：

2025-05-29

原始信息汇总

GitGoodBench 数据集概述

数据集基本信息

数据集名称: GitGoodBench
相关变体:
- GitGoodBench Lite
- GitGoodBench Train
发布平台: HuggingFace
数据集卡片地址:

数据集内容

用途: 评估AI代理在Git上的性能
数据来源: 通过RepositoryDataScraper工具从Git仓库中抓取
预处理: 包含多个预处理步骤，代码位于src/data_processing_scripts/mappers.py
数据集划分: 使用分层程序创建数据集划分，代码位于src/data_processing_scripts/downsample_dataset.py

数据集获取与使用

测试仓库: 提供在repos/testing-repositories.zip中，需解压至repos文件夹
运行要求: 需根据操作系统安装相应的依赖
入口文件: src/repository_data_scraper/main.py

基准实现

基线实现: 位于src/agent_client，包含工具实现、场景环境管理和评估实现
基线结果: 包含在data/vcs-agent-evaluation-metadata.db中，为SQLite数据库

分析与统计

分析工具: Jupyter笔记本位于src/notebooks，用于分析基准和计算统计信息

搜集汇总

数据集介绍

构建方式

GitGoodBench数据集的构建过程严格遵循科学严谨的方法论，通过筛选GitHub上具有宽松许可证的Python、Java和Kotlin开源项目，应用多维度过滤标准确保数据质量。研究团队采用分层抽样策略，基于项目规模、代码库活跃度和贡献者数量等特征，从6,917个合并样本和11,572个文件提交链样本中提取数据。特别设计了三种核心Git场景（合并冲突解决、交互式变基和迭代式提交变更），并通过场景级过滤器消除噪声数据，最终形成包含900个评估样本、120个快速原型样本和17,469个训练样本的完整数据集。

使用方法

研究人员可通过三种预设场景系统评估AI代理的Git操作能力：在合并冲突解决任务中，要求代理准确重现基准解决方案；交互式变基场景测试代理优化提交历史的能力；迭代式提交变更则评估代理将无序变更组织成合理提交序列的水平。数据集提供不同规模的评估子集，GitGoodBench Lite适合快速验证，完整版支持全面测试。使用时应遵循分层抽样原则，结合提供的基线工具链（如冲突查看器和变基TODO列表编辑器），并注意LLM-as-a-Judge评估需进行位置偏差校正的双重判断。

背景与挑战

背景概述

GitGoodBench是由JetBrains Research与慕尼黑工业大学的研究团队于2025年提出的创新性基准测试，旨在填补软件工程领域AI代理评估的空白。该数据集聚焦版本控制系统（VCS）的核心操作场景，包括合并冲突解决、交互式变基和迭代提交变更三大任务，数据来源于Python、Java和Kotlin的知名开源项目。作为首个端到端评估AI代理Git操作能力的标准，GitGoodBench通过精心设计的900个测试样本和17,469个训练样本，推动了AI代理从单纯代码生成向全流程软件开发协作的范式转变，其基线测试中GPT-4o仅21.11%的解决率凸显了该领域的探索价值。

当前挑战

在领域问题层面，GitGoodBench需解决三大核心挑战：交互式变基要求代理理解提交间的语义关联并重构历史记录；合并冲突解决需要跨文件协调冲突修复的全局一致性；迭代提交则考验代理对分散变更的逻辑分组能力。数据构建过程中，研究团队面临双重困难：需通过严格的仓库筛选标准（如星标≥1000、近半年活跃等）确保数据质量，同时设计分层抽样策略平衡编程语言分布与任务难度。特别在冲突样本标注时，需通过自动化工具识别Git冲突标记并人工验证，而文件提交链样本的纯度评估指标与实测性能相关性不足，暴露了任务难度量化的复杂性。

常用场景

经典使用场景

在软件工程领域，GitGoodBench作为一个专门针对版本控制系统（VCS）任务的基准测试工具，其经典使用场景主要围绕评估AI代理在Git操作中的性能表现。通过模拟真实的Git工作流程，如合并冲突解决（MCR）、交互式变基（IR）和迭代提交变更（ICC），该数据集为研究人员提供了一个标准化的测试环境，以衡量和比较不同AI代理在复杂版本控制任务中的表现。

解决学术问题

GitGoodBench解决了当前软件工程AI代理研究中一个关键问题：缺乏对版本控制系统操作的全面评估。传统基准如SWE-bench仅关注代码修复能力，而忽视了Git在分布式团队协作中的核心作用。通过提供涵盖多种Git场景的数据集，GitGoodBench填补了这一空白，使研究者能够系统地评估和改进AI代理在版本控制任务中的表现，从而推动更全面的软件工程AI代理的发展。

实际应用

在实际应用中，GitGoodBench为开发团队和工具提供商提供了一个可靠的测试平台，用于评估和优化AI辅助的Git操作。例如，团队可以利用该数据集测试其AI代理在解决复杂合并冲突或优化提交历史方面的能力，从而提升开发效率和代码质量。此外，该数据集还可用于培训新开发者，帮助他们通过模拟场景快速掌握高级Git操作技巧。

数据集最近研究