MIGRATION-BENCH

Name: MIGRATION-BENCH
Creator: AWS AI Labs
Published: 2025-05-15 01:11:23
License: 暂无描述

arXiv2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug

下载链接

链接失效反馈

官方服务：

资源简介：

MIGRATION-BENCH是一个大规模的基准数据集，用于评估大型语言模型（LLMs）从Java 8迁移到最新长期支持（LTS）版本（Java 17, 21）的代码迁移能力。该数据集包括一个完整的数据集和其分别包含5,102和300个存储库的子集。选定的子集是为复杂性和难度而精心策划的，为代码迁移领域的研究提供了一个多功能的资源。此外，我们还提供了一个全面的评估框架，以促进对LLMs在此项具有挑战性任务上的严格和标准化的评估。我们进一步提出了SD-Feedback并证明了LLMs可以有效处理到Java 17的存储库级代码迁移。对于包含Claude-3.5-Sonnet-v2的选定子集，SD-Feedback分别实现了62.33%和27.00%的成功率（pass@1），用于最小和最大迁移。基准数据集和源代码可以在https://huggingface.co/collections/AmazonScience和https://github.com/amazon-science/self_debug上获得。

MIGRATION-BENCH is a large-scale benchmark dataset for evaluating the code migration capability of Large Language Models (LLMs) when migrating from Java 8 to the latest long-term support (LTS) versions (Java 17, 21). This dataset includes a full dataset and its two subsets consisting of 5,102 and 300 repositories respectively. The selected subsets are carefully curated for complexity and difficulty, serving as a versatile resource for research in the code migration field. In addition, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively handle repository-level code migration to Java 17. For the selected subset containing Claude-3.5-Sonnet-v2, SD-Feedback achieves success rates (pass@1) of 62.33% and 27.00% for minimal and maximal migration tasks respectively. The benchmark dataset and source code are available at https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug.

提供机构：

AWS AI Labs

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

MIGRATION-BENCH数据集的构建采用了多阶段筛选流程以确保数据质量。首先，从GitHub收集符合MIT或Apache 2.0许可的Java仓库，并通过至少3星的评级保证基础质量。随后，采用Maven作为构建工具，确保仓库在Java 8环境下能通过验证。进一步通过时间回溯确定与Java 8兼容的基础提交ID（Hb），并去重处理。最终，数据集划分为包含单元测试的full子集（5,102个仓库）和无单元测试的UTG子集（4,814个仓库），同时精选300个具有复杂迁移挑战的仓库构成selected子集。

使用方法

该数据集的使用需结合其配套评估框架。研究者可通过mvn clean verify命令验证迁移后代码的构建与测试通过率（r1），检查编译类主版本号（r2）及依赖库升级合规性（r3）。针对测试完整性，需对比迁移前后AST解析的测试方法列表（r4）和测试用例数量（r5）。实验表明，采用SD-Feedback工作流时，建议以最小化迁移为中间步骤，逐步实现依赖库升级。对于selected子集，Claude-3.5模型在80次迭代后可达62.33%最小迁移成功率，展现其作为复杂迁移研究基准的价值。

背景与挑战

背景概述

MIGRATION-BENCH是由AWS AI Labs的研究团队于2025年推出的首个专注于Java代码迁移的大规模基准数据集。该数据集旨在评估大型语言模型(LLMs)在将Java 8代码库迁移至长期支持版本(如Java 17和21)时的性能表现。作为软件工程领域的重要创新，MIGRATION-BENCH填补了现有基准测试在仓库级代码迁移评估方面的空白。数据集包含5,102个完整仓库和精心挑选的300个代表性仓库子集，涵盖了从简单依赖更新到复杂跨文件修改的多样化迁移场景，为研究社区提供了评估模型迁移能力的标准化平台。

当前挑战

MIGRATION-BENCH面临的核心挑战体现在两个维度：领域问题方面，代码迁移需要处理跨版本语法差异、API废弃、依赖冲突等复杂问题，同时保持功能等价性验证；数据集构建方面，确保原始仓库在Java 8下的可构建状态、精确识别基准提交点、处理大规模仓库的去重与分类都带来了显著的技术难度。特别是依赖项主版本升级(r3要求)导致的最大化迁移成功率(27.00%)远低于最小化迁移(62.33%)，凸显了依赖管理的复杂性挑战。此外，测试覆盖不足的仓库难以验证功能等价性，这也是评估框架需要解决的关键问题。

常用场景

经典使用场景

MIGRATION-BENCH数据集在软件工程领域中被广泛用于评估大型语言模型（LLMs）在代码迁移任务中的表现。该数据集专注于从Java 8迁移到最新的长期支持版本（如Java 17或21），涵盖了5,102个完整的代码仓库及其精选的300个代表性子集。研究人员利用该数据集测试模型在复杂代码迁移任务中的能力，包括依赖项升级、语法转换和功能等价性验证。

解决学术问题

MIGRATION-BENCH解决了代码迁移研究中缺乏标准化评估基准的问题。传统代码生成基准（如HumanEval）无法涵盖仓库级迁移的复杂性，而该数据集通过提供多维度评估指标（如Maven构建验证、依赖版本升级和测试方法不变性），填补了这一空白。其意义在于首次实现了对LLMs在跨版本迁移中保持功能完整性的量化评估，推动了软件维护自动化研究的发展。

实际应用

在实际开发中，该数据集被企业用于测试自动化迁移工具的性能。例如AWS AI Labs开发的SD-Feedback系统通过该数据集验证了62.33%的最小迁移成功率，为Java生态系统的版本升级提供了可行方案。开发团队还可利用其UTG子集（4,814个无测试案例仓库）生成单元测试，增强遗留系统的测试覆盖率，降低迁移风险。

数据集最近研究