Terminal-Bench Pro (Public Set)

github2025-12-31 更新2026-01-05 收录

下载链接：

https://github.com/alibaba/terminal-bench-pro

下载链接

链接失效反馈

官方服务：

资源简介：

Terminal-Bench Pro (Public Set) 是一个用于在真实终端环境中测试 AI 智能体的扩展基准测试数据集。从编译代码到训练模型、设置服务器，Terminal-Bench Pro 评估智能体处理真实世界端到端任务的能力——完全自主地执行。包含 200+ 个任务，涵盖多个难度级别和类别，包括算法与数据结构、系统编程、机器学习、网络安全、数据处理、游戏与谜题、Web 开发、科学计算等。

Terminal-Bench Pro (Public Set) is an extended benchmark dataset for evaluating AI Agents in real terminal environments. Spanning scenarios from code compilation, model training to server configuration, Terminal-Bench Pro assesses agents' ability to accomplish real-world end-to-end tasks with full autonomy. It includes over 200 tasks covering diverse difficulty levels and categories, such as algorithms and data structures, system programming, machine learning, cybersecurity, data processing, games and puzzles, web development, scientific computing, and more.

创建时间：

2025-12-30

原始信息汇总

Terminal-Bench Pro (Public Set) 数据集概述

数据集基本信息

数据集名称：Terminal-Bench Pro (Public Set)
发布机构：阿里巴巴
描述：一个用于在真实终端环境中测试 AI 智能体的扩展基准测试数据集。评估智能体处理真实世界端到端任务的能力——完全自主地执行。
用途：为构建 LLM 智能体、基准测试框架或进行系统级推理的压力测试提供一个可复现的任务套件和执行框架，专为实用的真实世界评估而设计。
数据组织结构：遵循 Terminal Bench 2.0 结构。
许可证：Apache-2.0 许可证。

数据集规模与内容

任务数量：包含 200+ 个任务。
任务难度：涵盖多个难度级别（easy, medium, hard）。
任务类别：
- 算法与数据结构（回溯算法、图算法、动态规划等）
- 系统编程（编译、构建、调试、性能优化）
- 机器学习（模型训练、特征工程、强化学习）
- 网络安全（漏洞检测、加密解密、安全加固）
- 数据处理（数据清洗、格式转换、数据分析）
- 游戏与谜题（数独、国际象棋、推箱子等）
- Web 开发（API 开发、数据库配置、服务器部署）
- 科学计算（数值计算、符号计算、科学建模）

核心组件与结构

任务数据集

每个任务包含以下组件：

任务说明 (instruction.md)：详细的任务描述和要求。
测试脚本 (tests/)：用于验证智能体是否成功完成任务的测试套件。
参考解决方案 (solution/)：解决任务的参考（"oracle"）方案。
环境配置 (environment/)：包含 Dockerfile 和必要的环境文件。
任务元数据 (task.toml)：任务的元信息，包括难度、类别、标签等。

标准任务结构

task-name/ ├── instruction.md # 任务说明 ├── task.toml # 任务元数据和配置 ├── environment/ # 任务环境 │ ├── Dockerfile # 环境构建文件 │ └── ... # 其他环境文件 ├── solution/ # 参考解决方案 │ └── solve.sh # 参考解决脚本 └── tests/ # 测试套件 ├── test_outputs.py # 输出验证测试 └── test.sh # 测试脚本

使用方式

任务使用

查看任务列表：所有任务位于仓库根目录，每个任务文件夹包含完整的任务定义。
运行单个任务：每个任务可独立运行。进入任务目录查看详细说明（cat instruction.md）。

任务元数据

每个任务的 task.toml 文件包含以下信息：

难度级别：easy、medium、hard
类别：任务所属类别
标签：相关技术栈和主题标签
时间估计：专家和初级开发者的预计完成时间
资源限制：CPU、内存、存储等资源要求

应用场景

评估 AI 智能体：测试智能体在真实终端环境中的表现。
基准测试：比较不同模型和框架的性能。
训练数据：作为智能体训练的参考任务。
研究：进行系统级推理和任务规划的研究。

贡献指南

贡献新任务格式

创建任务文件夹（使用 kebab-case 命名）。
添加 instruction.md（中文任务说明）。
配置 task.toml（元数据和资源限制）。
创建 environment/ 目录（包含 Dockerfile）。
提供 solution/ 参考解决方案。
编写 tests/ 测试套件。

引用信息

引用本数据集

bibtex @misc{terminal_bench_pro_2025, title={Terminal-Bench Pro (Public Set): An Extended Benchmark for AI Agents in Terminal Environments}, url={https://github.com/your-org/terminal-bench-pro-public-set}, author={The Terminal-Bench Pro Team}, year={2025}, month={Apr} }

致谢与相关引用

基础项目：基于 Terminal-Bench 项目构建。
建议同时引用： bibtex @misc{tbench_2025, title={Terminal-Bench: A Benchmark for AI Agents in Terminal Environments}, url={https://github.com/laude-institute/terminal-bench}, author={The Terminal-Bench Team}, year={2025}, month={Apr} }

相关项目

Terminal-Bench - 原始 Terminal-Bench 项目。
Harbor - Terminal Bench 社区重新开发的评测框架。

搜集汇总

数据集介绍

构建方式

在人工智能智能体评估领域，Terminal-Bench Pro (Public Set)的构建体现了对真实世界终端任务的深度模拟。该数据集通过精心设计超过200个涵盖算法、系统编程、机器学习、网络安全等八大类别的任务，每个任务均以独立文件夹形式组织，内含详细的任务说明、测试脚本、参考解决方案及Docker环境配置。其构建逻辑遵循终端操作的完整闭环，从任务描述到环境隔离，再到自动化验证，确保了评估场景的可复现性与系统性。

特点

该数据集的核心特点在于其高度结构化与场景真实性。每个任务均配备完整的元数据描述，包括难度分级、资源限制与预估耗时，为智能体能力评估提供了多维度的量化基准。数据集采用与Terminal Bench 2.0兼容的组织架构，可无缝集成至Harbor评测框架，支持大规模并发测试。其任务设计覆盖从基础编译到复杂模型训练的连续谱系，既考察单项技能，也挑战端到端的综合问题解决能力，形成了层次分明、覆盖广泛的能力评估体系。

使用方法

使用者可通过Harbor评测框架便捷地调用该数据集进行智能体评估。安装Harbor后，通过命令行指定数据集路径与智能体类型，即可启动自动化测试流程，支持并行执行多个任务以提升评估效率。研究人员既可运行全套任务进行综合基准测试，也可深入单个任务目录，依据详细说明进行针对性实验。数据集提供的参考解决方案与标准化测试脚本，为结果验证与性能对比提供了可靠依据，使得智能体在真实终端环境中的能力量化成为可能。

背景与挑战

背景概述

随着人工智能智能体技术的快速发展，其在复杂终端环境中的自主执行能力成为衡量智能体实用性的关键指标。阿里巴巴于2025年推出的Terminal-Bench Pro (Public Set)数据集，正是为了应对这一核心研究问题而构建。该数据集由阿里巴巴终端基准测试团队主导开发，作为原始Terminal-Bench项目的扩展，旨在通过涵盖算法、系统编程、机器学习、网络安全等八大领域的200余个真实世界任务，系统评估智能体在端到端场景下的综合能力。其标准化任务结构与Harbor评测框架的深度集成，为学术界与工业界提供了一个可复现、高保真的评估基准，显著推动了智能体系统级推理与任务规划研究的发展。

当前挑战

该数据集致力于解决AI智能体在真实终端环境中执行复杂、多步骤任务的通用能力评估挑战，其核心在于超越传统的单一技能测试，要求智能体具备跨领域知识整合、动态环境适应与自主错误修复等高级认知能力。在构建过程中，挑战主要集中于任务生态的多样性与真实性平衡：一方面，需设计涵盖从算法实现到服务器部署的广泛场景，确保任务能反映实际工作流的复杂性；另一方面，必须为每个任务创建可复现的隔离执行环境（如Docker容器）、精确的自动化测试套件以及可靠的参考解决方案，这涉及大量的工程化工作与领域专家知识注入，以保障评估结果的严谨性与可比性。

常用场景

经典使用场景

在人工智能智能体研究领域，Terminal-Bench Pro (Public Set) 数据集为评估智能体在真实终端环境中的端到端任务执行能力提供了标准化测试平台。其经典使用场景集中于对大型语言模型智能体进行系统性基准测试，涵盖从算法实现、系统编程到机器学习模型训练等多元任务。研究者通过该数据集可模拟真实开发流程，检验智能体在复杂指令理解、环境交互与问题解决方面的综合表现，为智能体能力评估提供了可复现的实证基础。

衍生相关工作

围绕该数据集已衍生出若干重要研究工作，其中最具代表性的是Harbor评测框架的深度集成与扩展。研究社区基于Terminal-Bench Pro的任务结构开发了多智能体协同求解方案，并在系统级推理优化领域取得了突破性进展。同时，该数据集催生了针对终端环境智能体泛化能力的迁移学习研究，以及任务规划算法的创新性验证工作。这些衍生研究共同推动了自主智能体评估方法论的发展，形成了从基准测试到算法改进的完整研究生态。

数据集最近研究