five

Legacy-Bench

收藏
github2026-04-03 更新2026-04-04 收录
下载链接:
https://github.com/Factory-AI/legacy-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Legacy-Bench是一个用于评估AI编码代理在遗留软件工程任务上的基准测试。它包含数百个任务,涵盖六种遗留语言家族和真实的企业领域。该仓库包含十个代表性的公共样本任务。完整基准测试可用于评估。

Legacy-Bench is a benchmark designed to evaluate AI coding agents on legacy software engineering tasks. It comprises hundreds of tasks covering six legacy language families and real-world enterprise domains. This repository contains ten representative public sample tasks, and the full benchmark is available for evaluation.
创建时间:
2026-04-03
原始信息汇总

Legacy-Bench 数据集概述

数据集简介

Legacy-Bench 是一个用于评估 AI 编码智能体在遗留软件工程任务上表现的基准测试。该基准测试旨在衡量前沿 AI 智能体维护、调试和现代化遗留代码的能力。

基准测试构成

该基准测试包含数百个任务,涵盖六个遗留语言家族和真实的企业领域。本仓库提供了十个具有代表性的公开示例任务。完整的基准测试可用于评估,需联系 Factory 获取访问权限。

语言与领域分布

语言 基准测试占比 领域
COBOL 46% 金融结算、工资处理、保险索赔、电信计费、VSAM 文件处理
Java 7 32% 企业中间件、CDR 处理、仓库物流、二进制解析、EJB 模式
BASIC 6% 商业应用、会计、数据处理
C89 5% 系统编程、低级调试、协议实现
Fortran 5% 科学计算、数值方法、物理模拟
Assembly 5% x86 固件解析、协议解码、硬件模拟

公开示例任务

任务 语言 类型 描述
1907c2 C 修复/调试 遗留伙伴分配器修复
16b04d COBOL 迁移 铁路退休金迁移
2831b5 Java 7 修复/调试 评级引擎修复
3af1fe COBOL 修复/调试 债券结算对账
505812 Java 7 修复/调试 库存成本修复
6fe1ab Java 7 修复/调试 MTOM 附件损坏修复
8e8098 COBOL 修复/调试 铁路车厢结算修复
d1ddc1 Fortran 迁移 Lattice QCD 迁移到 C++
ecf5e7 x86-64 ASM 修复/调试 MZ/NE 头解析器修复
fac397 COBOL 迁移 批量利息迁移

任务结构

每个任务目录遵循 Harbor 任务格式:

tasks/<task-id>/ instruction.md # 智能体必须执行的操作 task.toml # 配置(超时、资源等) environment/ # 遗留代码库和 Dockerfile solution/ # 参考解决方案(oracle) tests/ # 智能体完成后运行的验证器脚本

智能体接收 instruction.mdenvironment/ 目录。智能体提交其更改后,在容器内执行 tests/ 中的验证器以检查正确性。

评估结果

在评估的 12 个模型-智能体组合中,完整基准测试的总体通过率范围为 16.9% 至 42.5%。作为对比,相同的前沿模型在 Terminal-Bench 2 和 SWE-bench Verified 上的得分 >70%。

关键发现:

  • 智能体迭代仅在错误可见时有效。 Java 7 错误修复得分最高,因为堆栈跟踪能告知智能体出错原因。COBOL 错误是静默的——错误的输出看起来是正确的。
  • 错误修复优于实现和迁移。 错误修复的得分大约是实现的 2 倍,而实现的得分大约是迁移的 2 倍。每个模型都显示出这种模式。
  • 没有单一模型胜出。 每个模型在整个语言家族上都有绝对的失败。不同任务类型的排名不一致。
  • 智能体不知道自己是错误的。 在 97% 的失败案例中,智能体认为自己已经解决了任务。

完整分析请阅读:https://factory.ai/news/legacy-bench

许可证

本项目根据 Apache License 2.0 授权,详情见 LICENSE 文件。

引用

bibtex @misc{legacybench2026, title={Legacy-Bench: A Benchmark for AI Agents on Legacy Software Engineering Tasks}, author={Factory AI}, year={2026}, url={https://github.com/factory-ai/legacy-bench} }

搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,随着关键基础设施中遗留代码维护需求的日益凸显,Legacy-Bench数据集应运而生。该数据集精心构建了涵盖COBOL、Java 7、BASIC、C89、Fortran及汇编语言六大遗留语言家族的数百项任务,并聚焦于金融结算、电信计费、科学计算等真实企业领域。其构建过程严格遵循Harbor任务格式,每个任务均包含明确的指令文档、配置信息、遗留代码环境及验证脚本,通过Docker容器技术模拟出贴近实际的遗留系统工作场景,从而系统性地评估AI编码智能体在维护、调试与现代化改造方面的能力。
特点
Legacy-Bench数据集的核心特点在于其专注于被主流基准忽略的遗留软件工程挑战。数据集以COBOL和Java 7为主要构成,分别占比46%和32%,精准反映了金融、保险等关键行业中仍在广泛使用的技术栈。任务类型涵盖错误修复、代码迁移及调试,尤其注重模拟遗留系统中常见的静默错误与复杂逻辑问题。该数据集通过提供完整的容器化环境与自动化验证流程,确保了评估的一致性与可复现性,同时其公开的样本任务展示了数据集在语言多样性与领域专业性上的深度布局。
使用方法
使用Legacy-Bench数据集需依托Harbor评估框架与Docker环境。研究人员可通过安装Harbor工具,配置相应的API密钥,以自动化方式运行整个基准测试或针对特定任务进行评估。数据集支持并行执行多个任务,并能兼容多种AI智能体模型。对于深入分析,用户亦可手动进入单个任务的Docker容器,直接与遗留代码库交互,并通过预置的测试脚本验证修改结果。这种灵活的使用方式既便于大规模性能评测,也允许对智能体在具体遗留场景中的行为进行细致考察。
背景与挑战
背景概述
在软件工程领域,遗留系统维护是长期存在的关键挑战。Legacy-Bench由Factory AI于2026年创建,旨在评估前沿人工智能编码代理在遗留软件工程任务上的能力。该数据集聚焦于COBOL、Java 7、BASIC、C89、Fortran和汇编语言等六类遗留语言家族,覆盖金融结算、电信计费、科学计算等真实企业领域。其核心研究问题在于探索人工智能代理能否有效维护、调试和现代化那些支撑全球关键基础设施但面临人才断层的遗留代码库,为软件工程的智能化转型提供实证基准。
当前挑战
该数据集所针对的领域问题挑战在于,遗留代码往往缺乏清晰文档、依赖过时技术栈且错误表现隐晦,例如COBOL程序的错误可能无显性异常,导致自动化调试极为困难。构建过程中的挑战则体现在需要精确模拟多样化的遗留开发环境,确保任务场景的真实性与可复现性,同时设计能够公正评估不同人工智能代理在跨语言、跨任务类型上性能的验证体系。现有评估结果显示,代理在迁移任务上的表现显著弱于缺陷修复,且普遍存在无法识别自身错误的问题,凸显了遗留软件智能化处理的复杂性。
常用场景
经典使用场景
在软件工程领域,Legacy-Bench作为评估AI编码代理处理遗留系统任务的基准,其经典使用场景聚焦于模拟企业级遗留代码的维护与现代化过程。该数据集通过涵盖COBOL、Java 7等六种传统编程语言,构建了数百个涉及金融结算、电信计费等真实业务场景的任务,使研究者能够系统性地测试AI代理在修复缺陷、迁移代码和理解复杂业务逻辑方面的能力。这种设计不仅还原了遗留系统维护中常见的沉默性错误和缺乏文档的挑战,还为衡量AI代理在传统技术栈上的适应性提供了标准化环境。
衍生相关工作
围绕Legacy-Bench衍生的经典工作主要集中在智能软件维护工具的架构创新上。研究团队基于其揭示的模型局限性,开发了针对沉默性错误的动态分析增强方法,以及结合业务规则理解的混合推理框架。在工程实践层面,该基准催生了专门处理COBOL语义保持的代码转换工具链,以及面向Java 7企业中间件的自动化重构系统。这些工作共同推动了领域自适应学习技术在软件工程中的应用,并为构建下一代企业级代码助手提供了技术蓝图。
数据集最近研究
最新研究方向
在软件工程领域,随着关键基础设施中遗留代码维护需求的日益紧迫,Legacy-Bench作为首个专注于评估AI编码代理在遗留系统任务中性能的基准测试,正引领着前沿研究方向的探索。该数据集聚焦于COBOL、Java 7等传统语言,覆盖金融、电信等核心领域,揭示了当前AI代理在代码迁移、调试与现代化改造中的能力边界。研究发现,AI代理在可见错误场景下表现更佳,但在无显式错误的COBOL任务中则面临严峻挑战,且普遍存在过度自信现象。这一基准不仅推动了智能体在复杂、沉默性错误处理方面的算法创新,也为AI赋能传统产业数字化转型提供了关键评估工具,促使研究社区更加关注跨语言、跨任务的鲁棒性解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作