harborframework/terminal-bench-2-leaderboard

Name: harborframework/terminal-bench-2-leaderboard
Creator: harborframework
Published: 2026-04-03 03:49:51
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/harborframework/terminal-bench-2-leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 --- # Terminal-Bench 2.0 Leaderboard Submissions This repository accepts leaderboard submissions for [Terminal-Bench 2.0](https://terminal-bench.org). ## How to Submit 1. [Fork this repository](https://huggingface.co/docs/hub/en/repositories-next-steps#duplicating-with-the-git-history-fork) 2. Create a new branch for your submission 3. Add your submission (a job or folder of jobs) under `submissions/terminal-bench/2.0/<agent>__<model(s)>/` 4. Open a Pull Request ## Submission Structure ```text submissions/ terminal-bench/ 2.0/ <agent>__<model>/ metadata.yaml # Required: agent and model info <job-folder>/ # One or more job directories config.json <trial-1>/result.json <trial-2>/result.json ... ``` ## Required: metadata.yaml Each submission must include a `metadata.yaml` file with the following fields: ```yaml agent_url: https://... # Required: link to agent repo/docs agent_display_name: "My Agent" # Required: display name for leaderboard agent_org_display_name: "Org" # Required: organization name models: # Required: list of models used - model_name: gpt-5 # Required: model identifier model_provider: openai # Required: provider (openai, anthropic, etc.) model_display_name: "GPT-5" # Required model_org_display_name: "OpenAI" # Required # - Other models if your agent used multiple ``` ## Job Directory Requirements Each job directory must contain all of the contents of your run. ### Validation Rules Your submission will be automatically validated. To pass: - `timeout_multiplier` must equal `1.0` - No agent timeout overrides (`override_timeout_sec`, `max_timeout_sec`) - No verifier timeout overrides - No resource overrides (`override_cpus`, `override_memory_mb`, `override_storage_mb`) - All trial directories must have valid `result.json` files - Trial directories must contain other artifacts from the run - Each task must be evaluated with a minimum of five trials. We recommend the `-k 5` flag for convenience. - Agents cannot access the Terminal-Bench website or GitHub repository (reward hacking) ## Submission Process 1. **Open PR**: When you open a Pull Request, our bot will automatically validate your submission 2. **Fix Issues**: If validation fails, the bot will comment with specific errors to fix 3. **Merge**: Once validation passes, a maintainer will review and merge your PR 4. **Import**: After merge, results are automatically imported to the leaderboard ## Questions? Open an issue in this repository or contact <alexgshaw64@gmail.com>.

提供机构：

harborframework

搜集汇总

数据集介绍

构建方式

在人工智能代理评估领域，Terminal-Bench 2.0 排行榜数据集通过社区协作的方式构建。该数据集依托一个开放的代码仓库，接受来自全球研究团队提交的代理性能评估结果。提交者需遵循严格的结构化规范，创建包含元数据文件与多个任务运行目录的分支，每个任务目录内需包含配置文件及至少五次独立试验的详细结果文件。这种构建模式确保了数据来源的多样性与评估过程的标准化，为排行榜提供了可验证且一致的数据基础。

使用方法

对于希望使用该数据集的研究者而言，其主要用途在于参与或分析 Terminal-Bench 2.0 的公开排行榜。用户可通过复刻仓库、创建分支并按照指定目录结构提交评估结果来贡献数据。提交后，自动化验证流程会确保数据的合规性，通过审核的结果将自动导入至官方排行榜。研究者可利用这些公开的评估结果进行横向性能比较、分析代理在不同终端任务上的表现趋势，或将其作为基准数据用于后续的算法改进与实证研究。

背景与挑战

背景概述

终端智能体评估领域近年来备受关注，随着大型语言模型在复杂任务处理中展现出卓越潜力，如何系统衡量其在真实终端环境下的交互能力成为关键研究议题。Terminal-Bench 2.0由相关研究团队于2024年推出，旨在构建一个标准化评估框架，通过模拟多样化终端操作场景，检验智能体在文件管理、系统控制及多步骤指令执行等方面的综合性能。该平台通过开源协作模式汇集全球研究力量，为终端智能体的能力演进提供了可复现、可比较的基准测试体系，显著推动了具身智能与自动化系统领域的方法创新与技术进步。

当前挑战

终端智能体评估面临的核心挑战在于如何设计既贴近真实应用又具备泛化性的测试任务，以准确反映模型在复杂动态环境中的决策鲁棒性与操作安全性。构建过程中需克服多重技术障碍：一是确保评估环境的可复现性与一致性，避免因系统差异导致结果偏差；二是设计严谨的防作弊机制，防止智能体通过访问外部资源进行奖励篡改；三是平衡任务难度与评估效率，在有限计算资源下实现大规模多轮次测试。此外，标准化提交格式与自动化验证流程的建立也对数据集的工程实现提出了严格要求。

常用场景

经典使用场景

在智能体与大型语言模型评估领域，Terminal-Bench 2.0 数据集被广泛用于基准测试，以衡量不同智能体在终端环境中的交互性能。该数据集通过模拟真实终端任务，如文件操作、系统命令执行和脚本编写，为研究者提供了一个标准化的评估平台，从而系统性地比较各类智能体的效率与准确性。

解决学术问题

该数据集有效解决了智能体评估中缺乏统一、可复现基准的学术难题，为终端交互智能体的性能量化提供了可靠依据。通过定义严格的验证规则与多轮试验要求，它促进了评估方法的标准化，推动了智能体鲁棒性、泛化能力及安全性的深入研究，对人工智能在系统交互领域的发展具有重要理论意义。

实际应用

在实际应用中，Terminal-Bench 2.0 数据集被用于指导智能体开发与优化，帮助企业和研究机构筛选高效的终端自动化解决方案。它支持智能体在运维自动化、开发工具链集成及系统管理任务中的性能验证，从而提升实际工作流程的自动化水平与可靠性，为产业界提供了实用的技术评估工具。

数据集最近研究