five

MIGRATION-BENCH

收藏
arXiv2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug
下载链接
链接失效反馈
官方服务:
资源简介:
MIGRATION-BENCH是一个大规模的基准数据集,用于评估大型语言模型(LLMs)从Java 8迁移到最新长期支持(LTS)版本(Java 17, 21)的代码迁移能力。该数据集包括一个完整的数据集和其分别包含5,102和300个存储库的子集。选定的子集是为复杂性和难度而精心策划的,为代码迁移领域的研究提供了一个多功能的资源。此外,我们还提供了一个全面的评估框架,以促进对LLMs在此项具有挑战性任务上的严格和标准化的评估。我们进一步提出了SD-Feedback并证明了LLMs可以有效处理到Java 17的存储库级代码迁移。对于包含Claude-3.5-Sonnet-v2的选定子集,SD-Feedback分别实现了62.33%和27.00%的成功率(pass@1),用于最小和最大迁移。基准数据集和源代码可以在https://huggingface.co/collections/AmazonScience和https://github.com/amazon-science/self_debug上获得。

MIGRATION-BENCH is a large-scale benchmark dataset for evaluating the code migration capability of Large Language Models (LLMs) when migrating from Java 8 to the latest long-term support (LTS) versions (Java 17, 21). This dataset includes a full dataset and its two subsets consisting of 5,102 and 300 repositories respectively. The selected subsets are carefully curated for complexity and difficulty, serving as a versatile resource for research in the code migration field. In addition, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively handle repository-level code migration to Java 17. For the selected subset containing Claude-3.5-Sonnet-v2, SD-Feedback achieves success rates (pass@1) of 62.33% and 27.00% for minimal and maximal migration tasks respectively. The benchmark dataset and source code are available at https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug.
提供机构:
AWS AI Labs
创建时间:
2025-05-15
搜集汇总
数据集介绍
main_image_url
构建方式
MIGRATION-BENCH数据集的构建采用了多阶段筛选流程以确保数据质量。首先,从GitHub收集符合MIT或Apache 2.0许可的Java仓库,并通过至少3星的评级保证基础质量。随后,采用Maven作为构建工具,确保仓库在Java 8环境下能通过验证。进一步通过时间回溯确定与Java 8兼容的基础提交ID(Hb),并去重处理。最终,数据集划分为包含单元测试的full子集(5,102个仓库)和无单元测试的UTG子集(4,814个仓库),同时精选300个具有复杂迁移挑战的仓库构成selected子集。
使用方法
该数据集的使用需结合其配套评估框架。研究者可通过mvn clean verify命令验证迁移后代码的构建与测试通过率(r1),检查编译类主版本号(r2)及依赖库升级合规性(r3)。针对测试完整性,需对比迁移前后AST解析的测试方法列表(r4)和测试用例数量(r5)。实验表明,采用SD-Feedback工作流时,建议以最小化迁移为中间步骤,逐步实现依赖库升级。对于selected子集,Claude-3.5模型在80次迭代后可达62.33%最小迁移成功率,展现其作为复杂迁移研究基准的价值。
背景与挑战
背景概述
MIGRATION-BENCH是由AWS AI Labs的研究团队于2025年推出的首个专注于Java代码迁移的大规模基准数据集。该数据集旨在评估大型语言模型(LLMs)在将Java 8代码库迁移至长期支持版本(如Java 17和21)时的性能表现。作为软件工程领域的重要创新,MIGRATION-BENCH填补了现有基准测试在仓库级代码迁移评估方面的空白。数据集包含5,102个完整仓库和精心挑选的300个代表性仓库子集,涵盖了从简单依赖更新到复杂跨文件修改的多样化迁移场景,为研究社区提供了评估模型迁移能力的标准化平台。
当前挑战
MIGRATION-BENCH面临的核心挑战体现在两个维度:领域问题方面,代码迁移需要处理跨版本语法差异、API废弃、依赖冲突等复杂问题,同时保持功能等价性验证;数据集构建方面,确保原始仓库在Java 8下的可构建状态、精确识别基准提交点、处理大规模仓库的去重与分类都带来了显著的技术难度。特别是依赖项主版本升级(r3要求)导致的最大化迁移成功率(27.00%)远低于最小化迁移(62.33%),凸显了依赖管理的复杂性挑战。此外,测试覆盖不足的仓库难以验证功能等价性,这也是评估框架需要解决的关键问题。
常用场景
经典使用场景
MIGRATION-BENCH数据集在软件工程领域中被广泛用于评估大型语言模型(LLMs)在代码迁移任务中的表现。该数据集专注于从Java 8迁移到最新的长期支持版本(如Java 17或21),涵盖了5,102个完整的代码仓库及其精选的300个代表性子集。研究人员利用该数据集测试模型在复杂代码迁移任务中的能力,包括依赖项升级、语法转换和功能等价性验证。
解决学术问题
MIGRATION-BENCH解决了代码迁移研究中缺乏标准化评估基准的问题。传统代码生成基准(如HumanEval)无法涵盖仓库级迁移的复杂性,而该数据集通过提供多维度评估指标(如Maven构建验证、依赖版本升级和测试方法不变性),填补了这一空白。其意义在于首次实现了对LLMs在跨版本迁移中保持功能完整性的量化评估,推动了软件维护自动化研究的发展。
实际应用
在实际开发中,该数据集被企业用于测试自动化迁移工具的性能。例如AWS AI Labs开发的SD-Feedback系统通过该数据集验证了62.33%的最小迁移成功率,为Java生态系统的版本升级提供了可行方案。开发团队还可利用其UTG子集(4,814个无测试案例仓库)生成单元测试,增强遗留系统的测试覆盖率,降低迁移风险。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在软件工程领域的广泛应用,代码迁移作为一个复杂且具有挑战性的任务,逐渐成为研究热点。MIGRATION-BENCH作为首个专注于Java 8到Java 17/21代码迁移的大规模基准数据集,填补了该领域的空白。其最新研究方向主要集中在以下几个方面:首先,探索如何利用LLM进行跨版本代码迁移,特别是在处理多模块、大规模代码库时的性能优化;其次,研究如何通过自动化测试和反馈机制(如SD-Feedback)提升迁移的准确性和效率;此外,该数据集还推动了依赖库版本升级、功能等价性验证等关键技术的研究。这些方向不仅与当前软件维护和升级的实际需求紧密相关,也为评估和提升LLM在复杂软件工程任务中的表现提供了重要工具。
相关研究论文
  • 1
    MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8AWS AI Labs · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作