harborframework/terminal-bench-2-leaderboard
收藏Hugging Face2026-04-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/harborframework/terminal-bench-2-leaderboard
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# Terminal-Bench 2.0 Leaderboard Submissions
This repository accepts leaderboard submissions for [Terminal-Bench 2.0](https://terminal-bench.org).
## How to Submit
1. [Fork this repository](https://huggingface.co/docs/hub/en/repositories-next-steps#duplicating-with-the-git-history-fork)
2. Create a new branch for your submission
3. Add your submission (a job or folder of jobs) under `submissions/terminal-bench/2.0/<agent>__<model(s)>/`
4. Open a Pull Request
## Submission Structure
```text
submissions/
terminal-bench/
2.0/
<agent>__<model>/
metadata.yaml # Required: agent and model info
<job-folder>/ # One or more job directories
config.json
<trial-1>/result.json
<trial-2>/result.json
...
```
## Required: metadata.yaml
Each submission must include a `metadata.yaml` file with the following fields:
```yaml
agent_url: https://... # Required: link to agent repo/docs
agent_display_name: "My Agent" # Required: display name for leaderboard
agent_org_display_name: "Org" # Required: organization name
models: # Required: list of models used
- model_name: gpt-5 # Required: model identifier
model_provider: openai # Required: provider (openai, anthropic, etc.)
model_display_name: "GPT-5" # Required
model_org_display_name: "OpenAI" # Required
# - Other models if your agent used multiple
```
## Job Directory Requirements
Each job directory must contain all of the contents of your run.
### Validation Rules
Your submission will be automatically validated. To pass:
- `timeout_multiplier` must equal `1.0`
- No agent timeout overrides (`override_timeout_sec`, `max_timeout_sec`)
- No verifier timeout overrides
- No resource overrides (`override_cpus`, `override_memory_mb`, `override_storage_mb`)
- All trial directories must have valid `result.json` files
- Trial directories must contain other artifacts from the run
- Each task must be evaluated with a minimum of five trials. We recommend the `-k 5` flag for convenience.
- Agents cannot access the Terminal-Bench website or GitHub repository (reward hacking)
## Submission Process
1. **Open PR**: When you open a Pull Request, our bot will automatically validate your submission
2. **Fix Issues**: If validation fails, the bot will comment with specific errors to fix
3. **Merge**: Once validation passes, a maintainer will review and merge your PR
4. **Import**: After merge, results are automatically imported to the leaderboard
## Questions?
Open an issue in this repository or contact <alexgshaw64@gmail.com>.
提供机构:
harborframework
搜集汇总
数据集介绍

构建方式
在人工智能代理评估领域,Terminal-Bench 2.0 排行榜数据集通过社区协作的方式构建。该数据集依托一个开放的代码仓库,接受来自全球研究团队提交的代理性能评估结果。提交者需遵循严格的结构化规范,创建包含元数据文件与多个任务运行目录的分支,每个任务目录内需包含配置文件及至少五次独立试验的详细结果文件。这种构建模式确保了数据来源的多样性与评估过程的标准化,为排行榜提供了可验证且一致的数据基础。
使用方法
对于希望使用该数据集的研究者而言,其主要用途在于参与或分析 Terminal-Bench 2.0 的公开排行榜。用户可通过复刻仓库、创建分支并按照指定目录结构提交评估结果来贡献数据。提交后,自动化验证流程会确保数据的合规性,通过审核的结果将自动导入至官方排行榜。研究者可利用这些公开的评估结果进行横向性能比较、分析代理在不同终端任务上的表现趋势,或将其作为基准数据用于后续的算法改进与实证研究。
背景与挑战
背景概述
终端智能体评估领域近年来备受关注,随着大型语言模型在复杂任务处理中展现出卓越潜力,如何系统衡量其在真实终端环境下的交互能力成为关键研究议题。Terminal-Bench 2.0由相关研究团队于2024年推出,旨在构建一个标准化评估框架,通过模拟多样化终端操作场景,检验智能体在文件管理、系统控制及多步骤指令执行等方面的综合性能。该平台通过开源协作模式汇集全球研究力量,为终端智能体的能力演进提供了可复现、可比较的基准测试体系,显著推动了具身智能与自动化系统领域的方法创新与技术进步。
当前挑战
终端智能体评估面临的核心挑战在于如何设计既贴近真实应用又具备泛化性的测试任务,以准确反映模型在复杂动态环境中的决策鲁棒性与操作安全性。构建过程中需克服多重技术障碍:一是确保评估环境的可复现性与一致性,避免因系统差异导致结果偏差;二是设计严谨的防作弊机制,防止智能体通过访问外部资源进行奖励篡改;三是平衡任务难度与评估效率,在有限计算资源下实现大规模多轮次测试。此外,标准化提交格式与自动化验证流程的建立也对数据集的工程实现提出了严格要求。
常用场景
经典使用场景
在智能体与大型语言模型评估领域,Terminal-Bench 2.0 数据集被广泛用于基准测试,以衡量不同智能体在终端环境中的交互性能。该数据集通过模拟真实终端任务,如文件操作、系统命令执行和脚本编写,为研究者提供了一个标准化的评估平台,从而系统性地比较各类智能体的效率与准确性。
解决学术问题
该数据集有效解决了智能体评估中缺乏统一、可复现基准的学术难题,为终端交互智能体的性能量化提供了可靠依据。通过定义严格的验证规则与多轮试验要求,它促进了评估方法的标准化,推动了智能体鲁棒性、泛化能力及安全性的深入研究,对人工智能在系统交互领域的发展具有重要理论意义。
实际应用
在实际应用中,Terminal-Bench 2.0 数据集被用于指导智能体开发与优化,帮助企业和研究机构筛选高效的终端自动化解决方案。它支持智能体在运维自动化、开发工具链集成及系统管理任务中的性能验证,从而提升实际工作流程的自动化水平与可靠性,为产业界提供了实用的技术评估工具。
数据集最近研究
最新研究方向
在智能体与终端交互领域,Terminal-Bench 2.0作为一项标准化评估基准,正推动着自主智能体在复杂命令行环境中的能力边界探索。前沿研究聚焦于多模态模型与专用代理架构的协同优化,旨在提升智能体在真实世界任务中的鲁棒性与泛化性能。热点事件包括各大科技公司竞相提交基于先进大语言模型的代理方案,以角逐公开排行榜的领先位置,这反映了行业对实用化AI助手落地的迫切需求。该数据集的持续迭代与社区共建,不仅为学术研究提供了可复现的评估框架,也加速了AI系统在运维、开发等垂直场景的应用深化,具有显著的工程与科学双重意义。
以上内容由遇见数据集搜集并总结生成



