TermiGen Environments

github2026-02-10 更新2026-02-12 收录

下载链接：

https://github.com/ucsb-mlsec/terminal-bench-env

下载链接

链接失效反馈

官方服务：

资源简介：

TermiGen提供了3,500多个经过验证的Docker环境，涵盖11个任务类别，包括软件构建与编译、系统管理与DevOps、安全与逆向工程、数据处理与ETL、机器学习与MLOps、算法与逻辑、软件开发、科学计算、交互环境、分布式计算和形式验证。这些环境平均任务复杂度为25.5轮和8,722个令牌。

TermiGen provides over 3,500 validated Docker environments, spanning 11 task categories including software building and compilation, system administration and DevOps, security and reverse engineering, data processing and ETL, machine learning and MLOps, algorithms and logic, software development, scientific computing, interactive environments, distributed computing, and formal verification. These environments have an average task complexity of 25.5 rounds and 8,722 tokens.

创建时间：

2026-02-07

原始信息汇总

TermiGen 数据集概述

数据集基本信息

数据集名称：TermiGen
官方仓库地址：https://github.com/ucsb-mlsec/terminal-bench-env
核心内容：用于训练鲁棒终端代理的高保真环境与错误纠正轨迹数据集。

数据集构成

已验证的Docker环境：包含超过3,500个可执行任务，以ZIP压缩包（termigen_env.zip）形式提供。
BashAgent实现：一个极简的ReAct风格代理实现（bash_agent.py）。

环境分类与统计

数据集涵盖11个任务类别，分为3个层级：

第一层级：基础设施与核心系统

软件构建与编译：gcc, cmake, rustc, makefile调试
系统管理与DevOps：Docker, Kubernetes, systemd, nginx
安全与逆向工程：Ghidra, Wireshark, gdb, Metasploit

第二层级：数据与算法应用

数据处理与ETL：Spark, Kafka, Parquet, SQL转换
机器学习与MLOps：PyTorch, CUDA, Hugging Face, 模型调试
算法与逻辑：图算法，动态规划，搜索

第三层级：专业领域

软件开发：React, Django, REST APIs, CI/CD
科学计算：Bioconductor, RDKit, GROMACS, NumPy
交互式环境：WebSocket, SSH, Jupyter, REPL
分布式计算：MPI, OpenMP, Ray, SLURM
形式化验证：Coq, Z3, OpenGL, Vulkan

统计信息：

420个独特的命令行工具
16个功能领域
平均任务复杂度：25.5轮交互，8,722个令牌

任务结构

每个任务遵循TerminalBench 1.0格式，包含：

task.yaml：任务描述和元数据
Dockerfile：环境规范
docker-compose.yaml：容器编排
run-tests.sh：测试执行脚本
tests/：单元测试（pytest）
任务文件：源代码、配置、数据、git仓库

性能基准

TermiGen-32B模型在基准测试中的表现：

基准测试	Pass@1
TerminalBench 1.0	31.3%
TerminalBench 2.0	18.0%

相比基础模型Qwen2.5-Coder-32B，绝对性能提升26.8%
相比o4-mini with Codex CLI，绝对性能提升11.3%

引用信息

如需在研究中引用TermiGen，请使用以下BibTeX条目： bibtex @article{zhu2026termigen, title={TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents}, author={Zhu, Kaijie and Nie, Yuzhou and Li, Yijiang and Huang, Yiming and Wu, Jialian and Liu, Jiang and Sun, Ximeng and Yin, Zhenfei and Wang, Lun and Liu, Zicheng and Barsoum, Emad and Wang, William Yang and Guo, Wenbo}, journal={arXiv preprint arXiv:2602.07274}, url={https://arxiv.org/abs/2602.07274}, year={2026} }

搜集汇总

数据集介绍

构建方式

在终端智能体研究领域，构建高保真且可验证的环境是评估模型实际能力的关键。TermiGen Environments 数据集的构建采用了系统化的工程方法，其核心在于通过 Docker 容器技术创建了超过 3500 个经过验证的可执行任务。这些任务覆盖了从基础设施管理到科学计算等 11 个专业类别，每个环境均包含完整的 Dockerfile、测试脚本及任务文件，确保了环境的独立性与可复现性。构建过程强调自动化验证，每个任务均通过了容器构建与单元测试的双重检验，从而保障了数据集的高保真度与执行可靠性。

特点

该数据集展现出多维度、高复杂度的显著特点。其内容跨越了系统管理、安全工程、机器学习与分布式计算等 16 个功能领域，整合了超过 420 种独特的命令行工具。任务设计具有相当的深度，平均交互轮次达到 25.5 轮，平均令牌长度约为 8722，这反映了其对现实世界复杂工作流的模拟能力。数据集采用三层分类体系进行组织，从核心系统操作到专业领域应用，结构清晰且覆盖全面，为终端智能体提供了从基础到前沿的渐进式评估场景。

使用方法

使用该数据集进行智能体评估或训练，需遵循其提供的标准化流程。用户首先需克隆代码仓库并解压包含所有环境的压缩包。随后，可通过配套的 BashAgent 脚本或兼容的评估框架（如 TerminalBench）来运行任务。具体操作时，需配置模型端点等环境变量，并指定任务标识符以启动针对单个或批量任务的评估。数据集中的每个任务目录均遵循统一结构，包含任务描述、容器配置及测试套件，支持用户进行本地部署与自动化测试，从而实现对智能体在真实终端环境中问题解决能力的系统化评测。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，终端智能体作为执行复杂命令行任务的关键工具，其训练依赖于高质量、可执行的环境数据。TermiGen Environments数据集由加州大学圣塔芭芭拉分校等机构的研究团队于2026年创建，旨在通过合成高保真度的Docker环境与纠错轨迹，解决终端智能体在真实系统操作中面临的鲁棒性不足与泛化能力有限的核心研究问题。该数据集涵盖软件构建、系统管理、安全分析等11个任务类别，包含超过3500个经过验证的可执行环境，为终端智能体的训练与评估提供了标准化基准，显著推动了自动化运维与智能编程助手等领域的发展。

当前挑战

构建TermiGen Environments面临双重挑战。在领域问题层面，终端智能体需应对高度异构的系统环境与动态交互任务，其挑战在于准确理解多轮对话上下文、生成可执行命令序列，并处理执行过程中可能出现的错误反馈，这对模型的推理能力与工具调用精度提出了极高要求。在数据集构建过程中，研究团队需确保每个Docker环境的完全可执行性，涉及复杂的依赖配置与自动化验证；同时，合成包含故意错误的纠错轨迹需精准模拟真实故障模式，涵盖分析错误、命令错误与幻觉等五类失败场景，以提升智能体的容错与修复能力。

常用场景

经典使用场景

在终端智能体研究领域，TermiGen Environments 数据集为训练和评估基于命令行的自主智能体提供了高保真度的仿真环境。该数据集通过超过3500个经过验证的Docker环境，覆盖了从基础设施管理到科学计算等11个任务类别，为智能体在真实终端场景中的交互与决策能力提供了标准化测试平台。研究者可借助这些环境模拟复杂的系统操作流程，从而系统性地考察智能体在软件编译、安全分析或分布式计算等任务中的表现。

实际应用

在实际部署中，TermiGen Environments 能够支撑企业级运维自动化与开发流程的智能化升级。例如，在DevOps场景下，智能体可借助该数据集学习并执行容器编排、服务配置或持续集成等任务，减少人工干预并提升系统可靠性。同时，在安全运维与数据工程领域，该环境可训练智能体进行漏洞分析、日志监控或ETL流程自动化，为复杂IT系统的智能管理与响应提供可落地的解决方案。

衍生相关工作

围绕TermiGen数据集，学术界已衍生出多项经典研究工作。其中，TermiGen-32B模型通过错误注入与纠正轨迹合成技术，显著提升了终端智能体的鲁棒性，并在TerminalBench基准上取得了领先性能。同时，基于该数据集构建的BashAgent等最小化ReAct架构，为终端智能体的基础交互范式提供了可复现的实现参考。这些工作共同推动了终端智能体在模型架构、训练策略与评估标准等方面的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集