five

GitGoodBench

收藏
arXiv2025-05-29 更新2025-05-30 收录
下载链接:
https://github.com/JetBrains-Research/git-good-bench
下载链接
链接失效反馈
官方服务:
资源简介:
GitGoodBench是一个用于评估人工智能代理在Git版本控制系统任务上的性能的新基准。该数据集由三个核心Git场景组成,从Python、Java和Kotlin的开源代码库中提取。GitGoodBench提供了三个数据集:一个包含900个样本的综合评估套件,一个包含120个样本的快速原型版本,以及一个包含17469个样本的训练语料库。
提供机构:
JetBrains Research & Technical University of Munich
创建时间:
2025-05-29
原始信息汇总

GitGoodBench 数据集概述

数据集基本信息

数据集内容

  • 用途: 评估AI代理在Git上的性能
  • 数据来源: 通过RepositoryDataScraper工具从Git仓库中抓取
  • 预处理: 包含多个预处理步骤,代码位于src/data_processing_scripts/mappers.py
  • 数据集划分: 使用分层程序创建数据集划分,代码位于src/data_processing_scripts/downsample_dataset.py

数据集获取与使用

  • 测试仓库: 提供在repos/testing-repositories.zip中,需解压至repos文件夹
  • 运行要求: 需根据操作系统安装相应的依赖
  • 入口文件: src/repository_data_scraper/main.py

基准实现

  • 基线实现: 位于src/agent_client,包含工具实现、场景环境管理和评估实现
  • 基线结果: 包含在data/vcs-agent-evaluation-metadata.db中,为SQLite数据库

分析与统计

  • 分析工具: Jupyter笔记本位于src/notebooks,用于分析基准和计算统计信息
搜集汇总
数据集介绍
main_image_url
构建方式
GitGoodBench数据集的构建过程严格遵循科学严谨的方法论,通过筛选GitHub上具有宽松许可证的Python、Java和Kotlin开源项目,应用多维度过滤标准确保数据质量。研究团队采用分层抽样策略,基于项目规模、代码库活跃度和贡献者数量等特征,从6,917个合并样本和11,572个文件提交链样本中提取数据。特别设计了三种核心Git场景(合并冲突解决、交互式变基和迭代式提交变更),并通过场景级过滤器消除噪声数据,最终形成包含900个评估样本、120个快速原型样本和17,469个训练样本的完整数据集。
使用方法
研究人员可通过三种预设场景系统评估AI代理的Git操作能力:在合并冲突解决任务中,要求代理准确重现基准解决方案;交互式变基场景测试代理优化提交历史的能力;迭代式提交变更则评估代理将无序变更组织成合理提交序列的水平。数据集提供不同规模的评估子集,GitGoodBench Lite适合快速验证,完整版支持全面测试。使用时应遵循分层抽样原则,结合提供的基线工具链(如冲突查看器和变基TODO列表编辑器),并注意LLM-as-a-Judge评估需进行位置偏差校正的双重判断。
背景与挑战
背景概述
GitGoodBench是由JetBrains Research与慕尼黑工业大学的研究团队于2025年提出的创新性基准测试,旨在填补软件工程领域AI代理评估的空白。该数据集聚焦版本控制系统(VCS)的核心操作场景,包括合并冲突解决、交互式变基和迭代提交变更三大任务,数据来源于Python、Java和Kotlin的知名开源项目。作为首个端到端评估AI代理Git操作能力的标准,GitGoodBench通过精心设计的900个测试样本和17,469个训练样本,推动了AI代理从单纯代码生成向全流程软件开发协作的范式转变,其基线测试中GPT-4o仅21.11%的解决率凸显了该领域的探索价值。
当前挑战
在领域问题层面,GitGoodBench需解决三大核心挑战:交互式变基要求代理理解提交间的语义关联并重构历史记录;合并冲突解决需要跨文件协调冲突修复的全局一致性;迭代提交则考验代理对分散变更的逻辑分组能力。数据构建过程中,研究团队面临双重困难:需通过严格的仓库筛选标准(如星标≥1000、近半年活跃等)确保数据质量,同时设计分层抽样策略平衡编程语言分布与任务难度。特别在冲突样本标注时,需通过自动化工具识别Git冲突标记并人工验证,而文件提交链样本的纯度评估指标与实测性能相关性不足,暴露了任务难度量化的复杂性。
常用场景
经典使用场景
在软件工程领域,GitGoodBench作为一个专门针对版本控制系统(VCS)任务的基准测试工具,其经典使用场景主要围绕评估AI代理在Git操作中的性能表现。通过模拟真实的Git工作流程,如合并冲突解决(MCR)、交互式变基(IR)和迭代提交变更(ICC),该数据集为研究人员提供了一个标准化的测试环境,以衡量和比较不同AI代理在复杂版本控制任务中的表现。
解决学术问题
GitGoodBench解决了当前软件工程AI代理研究中一个关键问题:缺乏对版本控制系统操作的全面评估。传统基准如SWE-bench仅关注代码修复能力,而忽视了Git在分布式团队协作中的核心作用。通过提供涵盖多种Git场景的数据集,GitGoodBench填补了这一空白,使研究者能够系统地评估和改进AI代理在版本控制任务中的表现,从而推动更全面的软件工程AI代理的发展。
实际应用
在实际应用中,GitGoodBench为开发团队和工具提供商提供了一个可靠的测试平台,用于评估和优化AI辅助的Git操作。例如,团队可以利用该数据集测试其AI代理在解决复杂合并冲突或优化提交历史方面的能力,从而提升开发效率和代码质量。此外,该数据集还可用于培训新开发者,帮助他们通过模拟场景快速掌握高级Git操作技巧。
数据集最近研究
最新研究方向
随着人工智能代理在软件工程领域的广泛应用,GitGoodBench作为首个专注于版本控制系统(VCS)任务评估的基准测试工具,近期研究聚焦于提升AI代理在复杂Git操作中的性能表现。前沿探索主要围绕三大核心场景展开:合并冲突解决(MCR)的跨文件一致性推理、交互式变基(IR)的提交历史优化算法,以及迭代式变更提交(ICC)的增量式代码整合策略。值得注意的是,研究者正尝试将小型语言模型(SLMs)与定制化工具链相结合,以解决当前GPT-4o在基准测试中仅21.11%的解决率瓶颈。该数据集通过覆盖Python/Java/Kotlin等主流语言的真实项目样本,为构建具备全栈开发能力的AI代理提供了关键验证平台,其提出的LLM-as-a-Judge评估框架更开创了Git历史质量量化分析的新范式。
相关研究论文
  • 1
    GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On GitJetBrains Research & Technical University of Munich · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作