ABC-Bench

github2026-01-20 更新2026-01-22 收录

下载链接：

https://github.com/OpenMOSS/ABC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ABC-Bench是一个用于评估代理后端编码的基准测试。它包含224个任务，这些任务来自127个MIT许可的仓库，涵盖8种语言和19种框架。数据集要求代理能够探索真实仓库、编辑代码、配置环境、部署容器化服务，并通过外部端到端API测试（基于HTTP的集成测试）。

ABC-Bench is a benchmark for evaluating agent backend coding. It contains 224 tasks sourced from 127 MIT-licensed repositories, covering 8 programming languages and 19 frameworks. This benchmark requires AI agents to explore real-world repositories, edit code, configure environments, deploy containerized services, and perform external end-to-end API tests (HTTP-based integration tests).

创建时间：

2026-01-14

原始信息汇总

ABC-Bench 数据集概述

数据集简介

ABC-Bench 是一个用于评估智能体后端编码能力的基准测试。它旨在测试代码智能体是否能够探索真实代码仓库、编辑代码、配置环境、部署容器化服务，并通过基于 HTTP 的外部端到端 API 测试。

核心特性

端到端生命周期评估：涵盖仓库探索、代码编辑/实现、环境设置、容器化部署以及外部端到端 API 验证。
真实世界多样性：包含从 127 个 MIT 许可的仓库中精选的 224 个任务，涵盖 8 种编程语言和 19 种框架。
环境感知任务：其中 92 个任务需要自主配置环境和启动容器化服务。
自动化构建：通过 ABC-Pipeline 以最小人工干预的方式构建，支持可扩展的任务创建和未来扩展。
高挑战性基线：即使是最先进的模型也远未达到完全可靠的水平。

数据集构成

任务数量：224 个。
来源仓库：127 个（MIT 许可证）。
编程语言：8 种。
框架：19 种。
环境配置任务：92 个。

访问方式

完整数据集（包括任务、构建资产、验证套件）可通过 Hugging Face 获取：

Hugging Face 数据集地址：https://huggingface.co/datasets/OpenMOSS-Team/ABC-Bench

使用要求

Docker
Python ≥ 3.10
Terminal-Bench CLI（可通过 pip install terminal-bench 安装）

发布日期

2026年1月20日：评估工具链和完整 ABC-Bench 数据集在 Hugging Face 发布。

搜集汇总

数据集介绍

构建方式

在智能体编程评估领域，ABC-Bench的构建体现了对现实世界开发复杂性的高度还原。该数据集通过自主开发的ABC-Pipeline自动化流程，从127个采用MIT许可证的开源仓库中系统性地筛选并构建了224项任务，涵盖了8种编程语言和19种主流框架。构建过程强调最小化人工干预，确保了任务来源的真实性与多样性，同时为未来的可扩展性奠定了坚实基础。

特点

ABC-Bench的突出特点在于其端到端的评估生命周期设计，不仅要求智能体执行代码编辑与实现，更需自主完成环境配置、容器化部署，并通过外部端到端API测试进行最终验证。数据集包含92项需环境感知的任务，深度模拟了真实后端开发中的基础设施操作。其任务设计跨越多种技术栈，为评估智能体在异构、动态环境中的综合编码能力提供了严谨而全面的基准。

使用方法

使用ABC-Bench进行评估需预先配置Docker环境与Python 3.10及以上版本，并通过安装Terminal-Bench命令行工具启动。用户需从Hugging Face平台下载完整数据集，在本地指定数据集根目录路径后，结合指定的智能体框架与模型（如OpenHands与GPT-5）运行评估命令。评估过程支持并发执行与超时控制，允许进行多次尝试，以系统化地衡量智能体在真实后端编码任务中的表现。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，智能体编码能力评估逐渐成为研究热点。ABC-Bench数据集由OpenMOSS-Team于2026年创建，旨在系统评估智能体在真实后端开发环境中的综合编码能力。该数据集聚焦于智能体能否探索实际代码仓库、编辑代码、配置环境、部署容器化服务并通过外部端到端API测试等核心研究问题，涵盖了8种编程语言和19种框架的224项任务，其构建过程高度自动化，显著提升了智能体编码评估的生态效度与可扩展性，为后续研究提供了坚实的基准平台。

当前挑战

ABC-Bench所针对的智能体后端编码领域，面临智能体需在复杂、异构的真实开发栈中完成全生命周期任务的挑战，包括跨仓库探索、代码编辑与环境配置的协同，以及容器化部署与外部API测试的集成验证。在数据集构建过程中，挑战主要源于如何从127个MIT许可仓库中自动化提取多样化任务，同时确保环境配置与容器启动的可靠性，并设计可扩展的验证流程以支持未来迭代，这些都对数据集的代表性、一致性与可复现性提出了较高要求。

常用场景

经典使用场景

在智能体辅助软件工程领域，ABC-Bench作为评估智能体后端编码能力的基准，其经典使用场景集中于对代码智能体在真实开发环境中的端到端性能进行系统性测评。该数据集通过模拟从仓库探索、代码编辑、环境配置到容器化部署及外部端到端API验证的完整开发生命周期，为研究者提供了一个高度逼真的评估平台，用以检验智能体在处理多样化后端技术栈时的综合能力。

解决学术问题

ABC-Bench有效解决了当前代码生成研究领域长期存在的评估场景碎片化与脱离实际的问题。它通过整合来自127个MIT许可仓库的224个任务，覆盖8种编程语言和19种框架，构建了一个统一且可扩展的评估标准，从而能够系统性地衡量智能体在复杂、动态的真实世界后端开发环境中的适应性与可靠性，推动了智能体编码研究从孤立代码片段生成向全流程工程实践的范式转变。

衍生相关工作

围绕ABC-Bench数据集，已衍生出一系列旨在提升智能体编码性能的经典研究工作。例如，基于其构建的监督微调模型Qwen3-8B-ABC与Qwen3-32B-ABC，专门针对后端编码任务进行了优化。此外，其提出的自动化构建管道ABC-Pipeline也为后续构建更大规模、更复杂场景的编码基准提供了可复用的方法论，激励了社区在环境感知、多步骤推理等方向上的持续探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集