GITS-Eval

arXiv2025-01-14 更新2025-01-15 收录

下载链接：

http://arxiv.org/abs/2501.07531v1

下载链接

链接失效反馈

官方服务：

资源简介：

GITS-Eval数据集由谷歌研究团队创建，旨在评估基于代理的自动程序修复系统在企业环境中的表现。该数据集包含178个bug，其中78个由人工报告，100个由机器报告，涵盖了多种编程语言和项目。数据集的筛选过程经过多阶段过滤，确保每个bug都有可执行的测试和明确的修复补丁。该数据集主要用于研究自动程序修复系统在复杂企业环境中的性能，旨在解决企业代码库中的bug修复问题。

The GITS-Eval dataset was developed by the Google Research team to evaluate the performance of agent-based automated program repair systems in enterprise environments. This dataset comprises 178 bugs, 78 of which are manually reported and 100 of which are machine-reported, covering diverse programming languages and projects. The dataset's screening process employs multi-stage filtering to ensure that every bug has an executable test case and a definitive repair patch. This dataset is primarily utilized to research the performance of automated program repair systems in complex enterprise environments, with the goal of addressing bug repair challenges within enterprise codebases.

提供机构：

谷歌

创建时间：

2025-01-14

搜集汇总

数据集介绍

构建方式

GITS-Eval数据集的构建基于Google内部问题跟踪系统（GITS）中的178个错误，涵盖人类报告和机器报告的错误。通过多阶段过滤流程，确保所选错误具有可执行测试和可验证修复，最终形成一个适合评估自动程序修复（APR）系统性能的基准集。过滤过程包括四个阶段：初始错误筛选、确定修复可行性的错误筛选、自动化筛选和启发式筛选，确保数据集具有代表性和可操作性。

特点

GITS-Eval数据集的特点在于其多样性和工业相关性。数据集包含78个人类报告的错误和100个机器报告的错误，涵盖多个项目和编程语言。与开源数据集SWE-Bench相比，GITS-Eval中的错误在语言多样性、代码修改规模和分布上表现出显著差异，反映了企业环境中错误的复杂性。此外，数据集中的错误修复补丁通常涉及更多文件和更大的代码修改量，增加了修复的难度。

使用方法

GITS-Eval数据集主要用于评估基于代理的自动程序修复系统在工业环境中的表现。研究人员可以使用该数据集来测试和优化代理系统，如Passerine，通过生成和验证补丁来修复错误。数据集的使用方法包括运行代理系统生成修复补丁，并通过测试验证补丁的可行性和正确性。此外，数据集还可用于分析代理系统的修复轨迹，识别优化机会，如减少冗余操作和改进错误定位策略。

背景与挑战

背景概述

GITS-Eval数据集由Google的研究团队于2024年创建，旨在评估基于代理的自动程序修复（APR）系统在企业环境中的可行性。该数据集包含178个从Google内部问题跟踪系统（GITS）中提取的Bug，涵盖人类报告和机器报告的Bug。GITS-Eval的创建是为了解决现有开源数据集（如SWE-Bench）在企业环境中可能存在的局限性，尤其是在Bug的多样性、语言分布和修复复杂性方面。该数据集的核心研究问题是如何在复杂的工业环境中有效应用基于大语言模型（LLM）的代理系统来自动修复Bug。GITS-Eval的推出为自动程序修复领域提供了一个新的基准，推动了该领域在企业级应用中的发展。

当前挑战

GITS-Eval数据集面临的挑战主要体现在两个方面。首先，该数据集旨在解决的领域问题是自动程序修复，尤其是在企业环境中处理复杂Bug的能力。与开源数据集相比，GITS-Eval中的Bug具有更高的语言多样性和修复复杂性，这对现有的APR系统提出了更高的要求。其次，在数据集的构建过程中，研究人员面临了如何从海量Bug中筛选出适合评估的Bug的挑战。由于企业环境中的Bug通常涉及复杂的项目结构和多语言代码库，研究人员必须设计多阶段的过滤流程，确保所选Bug既具有代表性，又能在现有技术下进行评估。此外，GITS-Eval中的Bug修复通常涉及多个文件的修改，这对代理系统的定位和修复能力提出了更高的要求。

常用场景

经典使用场景

GITS-Eval数据集主要用于评估基于代理的自动程序修复（APR）系统在企业环境中的表现。该数据集包含从Google内部问题跟踪系统中提取的178个错误，涵盖了人类报告和机器报告的错误。通过使用该数据集，研究人员可以测试代理系统在复杂的企业代码库中修复错误的能力，尤其是在多语言、大规模代码库中的表现。

实际应用

GITS-Eval数据集的实际应用场景主要集中在企业级软件开发中，尤其是那些依赖大规模、多语言代码库的公司。通过使用该数据集，企业可以评估和优化其内部的自动程序修复工具，减少开发人员在错误修复上的时间成本。此外，该数据集还可以用于训练和测试基于大语言模型（LLM）的代理系统，以提升其在复杂环境中的修复能力。

衍生相关工作

GITS-Eval数据集的发布推动了多个相关研究工作的进展。例如，基于该数据集，研究人员开发了Passerine代理系统，该系统能够在Google的开发环境中进行自动错误修复。此外，该数据集还启发了其他代理系统的设计，如SWE-Agent和AutoCodeRover，这些系统在开源数据集上的表现得到了显著提升。GITS-Eval的出现为自动程序修复领域提供了一个新的基准，促进了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集