TimeMachine-bench

github2026-02-02 更新2026-02-12 收录

下载链接：

https://github.com/tohoku-nlp/timemachine-bench

下载链接

链接失效反馈

官方服务：

资源简介：

TimeMachine-bench是一个用于评估模型在仓库级别迁移任务中能力的基准测试。该基准测试包含真实世界的GitHub仓库，这些仓库的测试在依赖项更新后开始失败。数据集以JSONL格式提供，包括完整数据集、人工验证子集和随机采样子集。

TimeMachine-bench is a benchmark for evaluating model capabilities in repository-level migration tasks. This benchmark includes real-world GitHub repositories whose tests begin to fail following dependency updates. The dataset is provided in JSONL format, comprising the full dataset, manually verified subset, and randomly sampled subset.

创建时间：

2026-01-08

原始信息汇总

TimeMachine-bench 数据集概述

数据集基本信息

名称：TimeMachine-bench
目的：用于评估模型在仓库级别迁移任务中的能力。
核心内容：由真实世界的GitHub仓库组成，这些仓库的测试因依赖项更新而开始失败。
名称由来：源于依赖项求解器的“时间旅行”概念，求解器使用按日期过滤的索引来解析依赖项，如同在过去操作一样。

数据集构成

数据集文件位于 benchmark/data/v1 目录下，格式为JSONL。

文件名称	仓库数量	描述
timemachine-bench-full.jsonl	1,145	由自动化流程生成的完整数据集。
timemachine-bench-verified.jsonl	100	经过人工验证的子集，保证可解性并带有难度标签。
timemachine-bench-random.jsonl	100	从完整数据集中随机采样的子集。

仓库结构

目录	描述
`services/`	用于按日期过滤的PyPI服务器的后端服务（`pypi-timemachine`）。
`benchmark/`	自动化数据构建流程的脚本。
`agents/`	基线代理和评估指标的实现。

框架特点

该框架能够在整个生态系统中严格复现任何特定时间点的环境，从而无需预定义目标库集合即可进行可扩展的评估。

引用格式

@inproceedings{fujii-etal-2026-timemachine-bench, title = {{TimeMachine-bench: A Benchmark for Evaluating Model Capabilities in Repository-Level Migration Tasks}}, author = {Fujii, Ryo and Morishita, Makoto and Yano, Kazuki and Suzuki, Jun}, year = {2026}, booktitle = {Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)}, note = {to appear} }

搜集汇总

数据集介绍

构建方式

在软件工程领域，依赖库的更新常引发兼容性问题，TimeMachine-bench的构建正是为了模拟这一现实挑战。该数据集通过自动化流水线从真实GitHub仓库中收集数据，这些仓库的测试因依赖更新而失败。构建过程利用时间过滤的PyPI索引，重现特定时间点的完整生态系统环境，从而无需预定义目标库即可实现可扩展的评估。数据以JSONL格式存储，包含1,145个仓库的完整数据集，以及经过人工验证的100个子集和随机采样的100个子集，确保了数据的多样性和可靠性。

特点

TimeMachine-bench的核心特点在于其真实性和可复现性。数据集基于实际GitHub仓库，捕捉了依赖更新导致的测试失败场景，反映了软件维护中的常见难题。通过时间旅行概念，它允许在任意时间点严格复现依赖环境，为模型评估提供了动态且可控的基准。数据集中包含难度标签和可解性保证，增强了评估的精确度，同时其结构化格式便于集成到自动化流程中，支持大规模实验和分析。

使用方法

使用TimeMachine-bench时，需先克隆仓库并启动pypi-timemachine服务器以模拟历史依赖环境。数据集文件位于benchmark/data/v1目录，用户可通过脚本运行自动化构建流水线或调用基线代理进行评估。评估过程在Docker提供的隔离环境中执行测试套件，确保安全性，同时利用jq工具处理JSON数据。该基准适用于研究仓库级迁移任务中模型的依赖解析和代码适应能力，为软件工程和自然语言处理交叉领域提供了标准化测试平台。

背景与挑战

背景概述

在软件工程领域，依赖管理是确保项目稳定性和可维护性的核心环节，随着开源生态的快速发展，依赖库的频繁更新常引发兼容性问题，导致现有代码库的测试失败。TimeMachine-bench数据集由日本东北大学自然语言处理研究团队于2026年创建，旨在评估模型在仓库级别迁移任务中的能力。该数据集聚焦于真实世界的GitHub仓库，模拟依赖更新后测试失败的情境，通过时间旅行概念构建日期过滤的索引，以精确复现历史依赖环境。其核心研究问题在于如何系统化地评估模型在复杂依赖解析与代码迁移中的性能，为自动化软件维护提供基准支持，对软件工程与自然语言处理的交叉研究具有重要推动作用。

当前挑战

TimeMachine-bench所针对的领域挑战在于，依赖更新引发的仓库级迁移任务涉及多维度复杂性，包括依赖冲突的精确识别、跨版本代码适配性分析以及大规模环境复现的可靠性。构建过程中的挑战则体现在数据采集与验证方面：需从海量GitHub仓库中自动化筛选出因依赖更新而测试失败的案例，确保数据的真实性与代表性；同时，人类验证子集的创建需保证依赖可解性与难度标签的准确性，这要求精细的管道设计与质量控制，以克服生态系统动态性带来的噪声干扰。

常用场景

经典使用场景

在软件工程与依赖管理领域，TimeMachine-bench为评估模型在仓库级别迁移任务中的能力提供了标准化基准。该数据集通过模拟真实GitHub仓库在依赖更新后测试失败的情境，构建了一个可复现的评估环境。经典使用场景涉及利用其自动化管道生成的数据，对智能代理进行系统化测试，以衡量它们在解决复杂依赖冲突、回溯历史版本并恢复项目功能方面的性能。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在智能代理设计与评估指标的创新上，例如基于强化学习的依赖求解器、结合代码语义理解的迁移建议模型，以及针对仓库级任务的多模态评估体系。这些研究不仅推动了自动化软件工程的发展，还促进了自然语言处理与程序分析领域的交叉融合，为构建更智能、自适应的开发辅助系统奠定了方法论基础。

数据集最近研究