TerminalWorld

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/EuniAI/TerminalWorld

下载链接

链接失效反馈

官方服务：

资源简介：

TerminalWorld 是一个用于评估 AI 代理在真实世界终端和命令行任务上表现的基准数据集。该数据集包含 1,530 个基于终端的任务，这些任务从公开可用的终端记录中逆向工程而来，涵盖数据处理、系统管理、网络、安全、版本控制、容器与编排、调试与测试、环境设置和科学计算等多个领域。每个任务包括自然语言指令、参考解决方案、基于状态的评估测试和可复现的 Docker 执行环境。数据集分为三个配置：完整版（1,530 个任务）、已验证版（200 个经过人工验证的任务）和样本版（20 个随机选取的任务）。数据格式为 JSONL，包含任务 ID、指令、工件路径、是否需要 Docker、终端领域类别等字段。数据集适用于终端和编码代理的评估、比较以及软件工程和系统管理领域的研究，但不适用于训练通用自主代理或评估需要认证凭证的工作流。数据集采用 CC BY-NC 4.0 许可，仅供非商业学术研究使用。

TerminalWorld is a benchmark dataset for evaluating the performance of AI agents on real-world terminal and command-line tasks. It contains 1,530 terminal-based tasks, reverse-engineered from publicly available terminal logs, covering various domains such as data processing, system administration, networking, security, version control, containers and orchestration, debugging and testing, environment setup, and scientific computing. Each task includes a natural language instruction, reference solution, state-based evaluation test, and a reproducible Docker execution environment. The dataset is divided into three configurations: the full version (1,530 tasks), the verified version (200 manually verified tasks), and the sample version (20 randomly selected tasks). The data format is JSONL, containing fields such as task ID, instruction, artifact path, whether Docker is required, and terminal domain category. The dataset is suitable for evaluating and comparing terminal and coding agents, as well as research in software engineering and system administration, but is not intended for training general autonomous agents or evaluating workflows requiring authentication credentials. It is licensed under CC BY-NC 4.0 and is for non-commercial academic research use only.

创建时间：

2026-05-04

原始信息汇总

TerminalWorld 数据集概述

基本信息

数据集名称: TerminalWorld
发布机构: EuniAI
许可协议: CC BY-NC 4.0（非商业学术用途）
语言: 英文
任务类别: 文本生成、强化学习、问答
数据集规模: 1K < n < 10K

数据集简介

TerminalWorld 是一个用于评估 AI 智能体在真实终端和命令行任务上表现的基准数据集。包含从公开终端录制中反向工程得到的 1,530 个终端任务，覆盖数据处理、系统管理、网络、安全、版本控制、容器与编排、调试与测试、环境设置及科学计算等多个领域。

每个任务包含自然语言指令、标准答案、基于状态的评估测试以及可复现的 Docker 执行环境。

数据集变体

数据集提供三种配置：

配置	任务数	说明
`full`	1,530	数据管道生成的所有 TerminalWorld 任务
`verified`	200	经人工验证的子集，包含指令清晰度、工件完整性、答案可回放性和状态测试有效性审核
`sample`	20	从 `verified` 中随机抽取的小样本，用于快速检查与开发

预期用途

在可复现的本地环境中评估终端与编码智能体
衡量 CLI 可靠性、环境复现、标准答案回放及基于状态的任务评估
比较不同智能体架构在真实终端工作流上的表现
针对软件工程和系统管理 AI 智能体的学术研究

建议使用 verified 子集作为基准测试的主要评估子集。

非预期用途

训练用于不受限制真实系统操作的通用自主智能体
安全敏感的命令执行或需凭据的云端管理
评估 GUI/TUI 密集型操作或需身份认证的工作流
衡量所有开发者场景下的通用软件工程能力

数据格式

每个任务以 JSONL 记录存储，包含以下字段：

字段	类型	描述
`task_id`	string	唯一任务标识符（如 `"tw_100135"`）
`instruction`	string	自然语言任务描述
`artifact_path`	string	压缩任务工件的相对路径
`requires_docker`	boolean	任务是否需要 Docker
`terminal_domain`	string	任务类别（如数据分析、版本控制、安全）
`source_type`	string	源材料来源
`pii_status`	string	个人身份信息处理状态
`license`	string	数据集许可

工件格式

每个任务工件 artifacts/{task_id}.tar.gz 包含以下结构：

{task_id}/ ├── task.toml # 任务元数据与配置 ├── instruction.md # 自然语言指令 ├── solution/ # 标准答案脚本 ├── tests/ # 基于状态的评估测试 └── environment/ # Docker 构建上下文（Dockerfile、资源文件）

数据收集与处理流程

公开终端录制收集：从公开来源收集终端会话录制
预处理与过滤：清洗、去重并过滤合适的录制
任务意图推断：从每个录制中推断预期任务与目标
标准答案提取：提取成功的命令序列作为标准答案
执行环境复现：构建 Docker 环境以复现原始执行上下文
状态测试生成：生成自动化测试以验证任务完成情况
任务优化：迭代优化任务的清晰度、可复现性与评估质量
人工验证（仅 verified 子集）：依据验证协议进行人工审核

人工验证协议

verified 子集中的 200 个任务经人工审核，包括：

指令清晰度：指令无歧义且正确描述预期行为
工件完整性：所有必需文件存在且有效
答案可回放性：标准答案在提供环境中成功执行并产生预期输出
状态测试有效性：自动化状态测试能正确区分任务完成成功与失败

隐私与敏感信息处理

数据构建流程包含过滤与清理步骤，去除可识别的个人信息、凭据、令牌、私有路径、邮箱、用户名、主机名、API 密钥等敏感字符串。发布的工件不包含原始终端录制或个人身份级别的元数据。但由于源材料来自公开的人类终端操作，无法完全消除残留敏感信息风险。

局限性与偏差

TerminalWorld 专注于从公开终端录制反向工程得到的任务，可能低估：

不常公开分享的工作流
涉及私有企业基础设施的任务
GUI/TUI 密集型操作
长期运行的云部署
需要身份认证的工作流

数据集继承自公开终端录制平台的选择偏差，发布终端录制的用户可能在专业能力、工具偏好、操作系统、语言生态系统和分享意愿上与更广泛的开发者群体存在差异。

搜集汇总

数据集介绍

构建方式

TerminalWorld数据集的构建依托于一个多阶段的数据引擎，起始于对公开终端录制的系统性搜集与预处理。通过清洗、去重与筛选后，引擎从每段录音中推理出用户意图，并提取出成功的命令序列作为标准解。随后，通过重建Docker执行环境与生成基于状态的自动化测试，将原始录音转化为可复现、可评测的任务单元。最终，经过清晰度验证与作品完整性审查的人工校验流程，形成包含1530项任务的完整集合，其中200项入选高可信度的“验证”子集。

特点

该数据集的核心特色在于其任务源自真实的终端操作录播，覆盖数据处理、系统管理、网络安全、版本控制等九大专业领域，精准反映了实际命令行工作流的复杂性。每项任务均配备自然语言指令、标准解、状态评估测试与可复现的Docker环境，为AI智能体提供了从理解指令到环境复现再到自动化验证的全链路评测框架。其数据格式采用JSONL存储，便于集成与扩展，而“验证”子集经由人工核查确保了指令无歧义、方案可回放及测试有效性，为基准测评树立了质量标杆。

使用方法

用户可通过HuggingFace Datasets库便捷地加载TerminalWorld数据集，指定配置如“full”、“verified”或“sample”即可获取相应任务记录，并采用标准的Python字典接口访问任务ID、指令与元数据。对于实际评测，推荐优先选用经过人工验证的“verified”子集，以保障结果的可靠性。任务所需的Docker环境与测试文件可通过HuggingFace Hub下载相应tar.gz压缩包后解压获取，亦能借助项目提供的脚本自动化完成，从而在本地搭建可复现的实验环境并运行基于状态的测试，实现对AI智能体终端任务执行能力的精确度量。

背景与挑战

背景概述

TerminalWorld 数据集诞生于2026年，由来自国际顶尖学术与工业机构的研究团队共同构建，包括 Zhaoyang Chu、Jiarui Hu、Xingyu Jiang、Earl T. Barr、Mark Harman 等学者，旨在填补人工智能智能体在真实终端与命令行环境中评估的空白。该数据集通过从公开终端记录中逆向工程，系统性地收集了1,530项涵盖数据处理、系统管理、网络安全、版本控制、容器编排等九大领域的终端任务。每项任务均包含自然语言指令、标准解法、基于状态的评估测试及可复现的 Docker 执行环境，为评估 AI 智能体的终端工作流理解、命令执行与环境状态复现能力提供了标准化基准。TerminalWorld 的出现对强化学习、代码智能体与面向软件工程的 AI 研究领域产生了深远影响，成为衡量 CLI 智能体可靠性与泛化能力的重要标尺。

当前挑战

TerminalWorld 所解决的领域核心挑战在于：现有评估基准多聚焦于受限的代码补全或问答任务，而真实终端操作涉及复杂的多步命令链、依赖环境配置与系统状态验证，传统方法难以量化智能体在动态、交互式 CLI 环境中的可靠性与鲁棒性。在数据集构建过程中，研究团队面临多重挑战：首先，从多样化的公开终端记录中准确推断任务意图并提取标准解法，需要克服噪声和异构性的干扰；其次，构建可复现的 Docker 执行环境并生成有效的基于状态的评估测试，要求对原始系统上下文的精确还原；最后，通过人工验证机制（即 verified 子集）确保指令清晰性、产物完整性、解法可复现性与测试有效性，过程耗时且需严格的质量控制。这些挑战使得 TerminalWorld 不仅评估了智能体的技术能力，也考验了数据工程在隐私保护和偏差减轻方面的精细度。

常用场景

经典使用场景

TerminalWorld作为一款专为评估终端与命令行场景下AI智能体性能而设计的基准数据集，其最经典的使用场景莫过于对自动化运维智能体、编码辅助智能体以及命令行交互系统的可靠性进行系统性评测。研究者可借助该数据集再现真实世界中的终端工作流，涵盖数据处理、系统管理、版本控制、网络安全、容器编排以及科学与工程计算等多元领域。通过在可复现的Docker执行环境中验证智能体是否能够准确理解自然语言指令、执行恰当的Shell命令序列，并成功通过基于状态检验的自动化评估，研究者即可客观衡量不同架构智能体在复杂终端任务上的表现差异。

实际应用

在实际应用层面，TerminalWorld为构建更安全、更可靠的自动化终端助手提供了关键的测试基准，可服务于诸如智能运维机器人、自动化部署工具、代码调试辅助系统等产品的能力评估与迭代优化。例如，在开发面向云原生环境的故障诊断智能体时，研发团队可利用该数据集中的系统管理与网络相关任务进行回归测试，确保智能体能够在不引入安全风险的前提下准确执行诊断与修复指令。此外，教育科技领域亦可借助该数据集评估或训练能够理解并解释Unix操作流程的教学型智能体，帮助学习者弥合理沦知识与实操经验之间的鸿沟。

衍生相关工作

TerminalWorld的发布催生了一系列聚焦于终端智能体评测与优化的经典研究工作。一方面，研究者利用该数据集构建了各类基线模型，包括基于大型语言模型的提示工程方案、基于行为克隆的指令微调策略以及结合环境反馈的强化学习方法，并深入分析了不同方法在处理跨域终端任务时的优缺点。另一方面，该数据集也激发了关于终端智能体安全性的探索，例如如何防范恶意指令注入、如何确保敏感操作前的风险感知与人工确认等，形成了“终端智能体安全评估”这一新兴研究方向。此外，在数据集标准化的推动下，部分工作开始探索将TerminalWorld与代码生成、网页导航等已有智能体基准进行多任务联合评测，力图揭示不同场景下通用智能体的能力边界与迁移特性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集