new_commit_better_repos

Name: new_commit_better_repos
Creator: TIGER-Lab
Published: 2026-04-14 05:11:48
License: 暂无描述

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/new_commit_better_repos

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是SWE-Next项目中的一个中间元数据产物，记录了在收集过程中至少观察到一个'NEW_COMMIT_BETTER'提交对的GitHub仓库列表。数据集包含335个仓库，每个仓库记录了被分类为'NEW_COMMIT_BETTER'的提交对数量，这些提交对在测试中产生了严格的改进而没有退化。数据集以CSV格式存储，包含两列：'repo'（GitHub仓库的'owner/repo'格式）和'NEW_COMMIT_BETTER'（该仓库中'NEW_COMMIT_BETTER'提交对的数量）。该数据集主要用于检查哪些仓库贡献了基于执行的改进，选择有潜力的仓库进行进一步的流水线运行，以及重现SWE-Next中的中间仓库级过滤阶段。

提供机构：

TIGER-Lab

创建时间：

2026-04-03

搜集汇总

数据集介绍

构建方式

在软件工程智能化研究领域，构建高质量的数据集是评估智能体解决现实任务能力的关键。new_commit_better_repos数据集源自SWE-Next项目，该项目从3,971个初始Python代码仓库出发，通过挖掘真实合并的拉取请求，执行了超过十万个候选的基础与合并提交对。在自动化测试执行过程中，系统识别出那些至少产生一次严格测试改进且无回归的提交对，并将这些表现出改进的仓库记录于此。该CSV文件作为流程中的中间元数据产物，汇总了335个仓库及其对应的NEW_COMMIT_BETTER计数，为后续任务打包提供了轻量级的仓库索引。

使用方法

在软件工程智能体评估与开发流程中，该数据集主要用于辅助分析与筛选。研究人员可通过加载CSV文件，直观探查哪些仓库贡献了基于执行的测试改进，进而选择有前景的仓库进行更深层次的管道运行或任务生成。使用Python的pandas库即可轻松读取数据，例如通过指定Hugging Face数据集路径直接加载。该数据集与SWE-Next的最终任务数据集、种子仓库列表等构件相互关联，共同支撑从仓库过滤到任务打包的全流程，为复现中间过滤阶段或优化数据收集策略提供了关键参考。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码生成与测试修复已成为前沿研究方向。SWE-Next数据集由TIGER-AI实验室于2026年提出，其核心研究问题聚焦于为智能体构建可扩展的真实世界软件工程任务。该数据集通过从3971个初始Python仓库中挖掘102,582个候选提交对，旨在创建能够反映实际开发过程中代码改进与测试演化的基准。这一工作显著推动了自动化软件工程代理的评估与训练，为代码智能研究提供了大规模、高质量的实证基础。

当前挑战

该数据集致力于解决软件工程智能体在真实场景中执行代码改进与测试验证的挑战，其核心难题在于如何从海量开源提交中精准识别那些严格提升测试性能且无回归的代码变更。在构建过程中，研究团队面临数据采集与筛选的双重困难：一方面需要从数千个仓库中高效挖掘有效的提交对，另一方面必须设计鲁棒的自动化流程来准确分类NEW_COMMIT_BETTER事件，确保最终任务数据的可靠性与代表性。

常用场景

经典使用场景

在软件工程智能化研究领域，new_commit_better_repos数据集作为SWE-Next项目中的关键中间产物，其经典使用场景聚焦于大规模代码仓库的自动化筛选与评估。该数据集通过记录GitHub仓库中产生严格测试改进且无回归的提交对数量，为研究者提供了一个轻量级索引，用以识别那些在真实合并请求中展现出代码质量提升潜力的仓库。这一过程为后续构建面向智能体的软件工程任务奠定了数据基础，使得研究人员能够高效地从海量开源项目中定位具有研究价值的实例。

解决学术问题

该数据集直接应对了软件工程自动化研究中一个核心挑战：如何从真实世界的软件开发历史中，系统性地识别和提取能够验证代码改进的可靠样本。它通过量化每个仓库中NEW_COMMIT_BETTER事件的发生频率，为评估代码变更的良性影响提供了可操作的度量指标。这有助于学术界深入研究软件演化模式、自动化测试的有效性以及智能体在代码优化任务中的性能边界，推动了基于执行验证的实证软件工程方法的发展。

实际应用

在实际的软件开发与人工智能集成场景中，该数据集可作为自动化代码审查和持续集成流水线的增强工具。工程团队能够借鉴其筛选逻辑，优先关注那些历史上频繁产生高质量改进提交的代码库，从而优化代码审查资源的分配。此外，它为构建用于训练代码生成与修复模型的精炼数据集提供了上游过滤层，确保用于微调大语言模型的训练样本具有更高的任务相关性和质量保证，最终提升智能编程助手在实际开发环境中的实用性与可靠性。

数据集最近研究