openthoughts-tblite
收藏Hugging Face2026-03-04 更新2026-03-05 收录
下载链接:
https://huggingface.co/datasets/NousResearch/openthoughts-tblite
下载链接
链接失效反馈官方服务:
资源简介:
NousResearch/openthoughts-tblite 数据集是 OpenThoughts-TBLite 的重新格式化版本,专为与 Hermes Agent Terminal-Bench 评估框架配合使用而设计。该数据集由 OpenThoughts Agent 团队与 Snorkel AI 和 Bespoke Labs 合作创建,是 Terminal-Bench 2.0 的一个难度校准子集,旨在加速终端代理的开发迭代。数据集包含100个任务,每个任务都有唯一的标识符、自然语言提示、预构建的 Docker 镜像、任务类别、难度级别、标签、超时设置等。任务难度分为五个等级(简单、中等、困难、非常困难、专家级),并提供了每种难度下的任务数量和通过率范围。数据集适用于终端代理的开发和评估,支持通过 Hermes Agent 或 Python 直接加载和使用。
提供机构:
NousResearch
创建时间:
2026-03-04
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: NousResearch/openthoughts-tblite
- 许可证: Apache 2.0
- 标签: terminal-agents, benchmark, evaluation, software-engineering
数据来源与背景
- 本数据集是 OpenThoughts-TBLite 的重新格式化版本,专为与 Hermes Agent Terminal-Bench 评估框架配合使用而设计。
- 原始数据集 OpenThoughts-TBLite 由 OpenThoughts Agent 团队与 Snorkel AI 和 Bespoke Labs 合作创建。
- 它是 Terminal-Bench 2.0 的一个经过难度校准的子集,旨在为开发终端智能体时提供更快的迭代速度。
数据格式与内容
- 数据格式: 原始 TBLite 数据集将任务存储为包含 Dockerfiles、指令文件和测试脚本的独立目录。本数据集将其转换为扁平的表格格式,以匹配 NousResearch/terminal-bench-2 的架构。
- 数据规模: 包含 100 个任务示例,全部位于
train分割中。 - 关键变更:
- 为所有 100 个任务构建并推送了 Docker 镜像至 Docker Hub,标签为
nousresearch/tblite-<task-name>:latest。 - 将测试套件(
tests/目录)打包为 base64 编码的 tar.gz 存档,存储在tests_tar列。 - 将构建上下文(
environment/目录)打包为 base64 编码的 tar.gz 存档,存储在environment_tar列。 - 从每个任务的
task.toml中提取了元数据(类别、难度、标签、超时时间)。
- 为所有 100 个任务构建并推送了 Docker 镜像至 Docker Hub,标签为
- 内容保真度: 任务内容(指令、Dockerfiles 和测试脚本)未作任何修改,与原始版本完全相同。
数据模式(Schema)
| 列名 | 数据类型 | 描述 |
|---|---|---|
task_name |
string | 唯一任务标识符(来自 TBLite 的目录名) |
instruction |
string | 展示给智能体的自然语言任务提示 |
docker_image |
string | 预构建的 Docker Hub 镜像(nousresearch/tblite-<name>:latest) |
category |
string | 任务类别(例如 security, machine-learning) |
difficulty |
string | 难度等级(easy, medium, hard, very-hard, expert) |
tags |
string | JSON 编码的标签列表 |
agent_timeout_sec |
float64 | 来自 task.toml 的推荐智能体超时时间(秒) |
test_timeout_sec |
float64 | 来自 task.toml 的推荐测试/验证器超时时间(秒) |
environment_tar |
string | Docker 构建上下文的 Base64 tar.gz(镜像不可用时的备用方案) |
tests_tar |
string | 测试套件的 Base64 tar.gz(上传到沙盒的 pytest 脚本) |
test_sh |
string | tests/test.sh 的内容(测试运行脚本) |
难度分布
使用 Claude Haiku 4.5 作为参考模型进行校准:
| 难度等级 | 通过率范围 | 任务数量 |
|---|---|---|
| Easy | >= 70% | 24 |
| Medium | 40-69% | 43 |
| Hard | 10-39% | 28 |
| Very Hard | < 10% | 1 |
| Expert | < 10% | 2 |
使用方式
与 Hermes Agent 一起使用
bash python environments/benchmarks/tblite/tblite_env.py evaluate
使用 Python
python from datasets import load_dataset ds = load_dataset("NousResearch/openthoughts-tblite", split="train") print(f"{len(ds)} tasks") print(ds[0]["task_name"], ds[0]["instruction"][:100])
引用信息
bibtex @software{OpenThoughts-TBLite, author = {OpenThoughts-Agent team, Snorkel AI, Bespoke Labs}, month = Feb, title = {{OpenThoughts-TBLite: A High-Signal Benchmark for Iterating on Terminal Agents}}, howpublished = {https://www.openthoughts.ai/blog/openthoughts-tblite}, year = {2026} }
搜集汇总
数据集介绍
构建方式
在终端智能体评估领域,OpenThoughts-TBLite数据集源自Terminal-Bench 2.0的精选子集,由OpenThoughts团队联合Snorkel AI与Bespoke Labs共同构建。其构建过程经过精心校准,依据Claude Haiku 4.5作为参考模型对任务难度进行分级,涵盖从简易到专家级别的五个层次。原始数据以独立目录形式存储,包含Dockerfile、指令文件及测试脚本;为适配Hermes Agent评估框架,数据集被转化为扁平化的表格结构,所有任务内容均保持原貌,仅通过预构建Docker镜像与Base64编码的压缩归档实现格式统一。
使用方法
使用该数据集时,研究人员可通过Hermes Agent的专用评估脚本直接运行基准测试,亦能借助Python的datasets库灵活加载数据。数据集采用与Terminal-Bench 2.0兼容的表格模式,每行对应一个独立任务,包含指令文本、环境镜像、测试归档及执行参数等关键字段。用户既可调用预置的Docker镜像快速创建沙箱环境,也能通过解压Base64编码的构建上下文与测试套件进行自定义部署。这种设计兼顾了评估的标准化与实验的灵活性,为终端智能体的开发与优化提供了可靠的基础设施。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,终端智能体(Terminal Agents)的评估与迭代需求日益凸显。OpenThoughts-TBLite数据集由OpenThoughts Agent团队联合Snorkel AI与Bespoke Labs于2026年创建,作为Terminal-Bench 2.0的难度校准子集,旨在为终端智能体的高效开发提供高信噪比基准。该数据集聚焦于自然语言指令驱动的终端任务执行,涵盖安全、机器学习等多个类别,通过预构建的Docker环境与标准化测试套件,系统化评估智能体在复杂命令行交互中的能力,推动了自动化软件工程与智能体研究的发展。
当前挑战
该数据集核心挑战在于解决终端智能体领域泛化能力与鲁棒性评估的难题。终端任务涉及多样化的系统操作、环境配置与错误处理,要求智能体具备跨领域推理与实时适应能力。数据构建过程中,团队需克服任务难度校准的复杂性,依据参考模型Claude Haiku 4.5的通过率精确划分五个难度等级,并确保100项任务的Docker镜像、测试套件及元数据在格式转换中的一致性与可复现性,同时维持原始任务内容无损,以支撑可靠且高效的迭代评估。
常用场景
经典使用场景
在终端智能体领域,openthoughts-tblite数据集作为一款精心校准的基准测试工具,其经典使用场景聚焦于高效迭代开发与性能评估。研究者与开发者利用该数据集,通过自然语言指令驱动智能体在模拟终端环境中执行多样化任务,涵盖安全、机器学习等多个类别,从而系统化测试智能体的理解、推理与执行能力。这种标准化评估框架显著加速了终端智能体的原型设计与优化过程,为算法改进提供了可靠的性能反馈。
解决学术问题
该数据集有效解决了终端智能体研究中缺乏高质量、难度分级基准的学术难题。通过提供100个经过难度校准的任务,并附带完整的Docker环境与测试套件,它使得研究者能够精确量化智能体在不同复杂度任务上的表现,从而推动对智能体泛化能力、鲁棒性及任务理解深度的系统性探索。其引入为终端智能体的科学评估设立了新标准,促进了该领域从定性描述向定量分析的范式转变。
实际应用
在实际应用层面,openthoughts-tblite数据集为构建和优化自动化运维、智能开发助手及安全审计工具提供了关键的训练与测试基础。企业可利用该数据集评估其智能体代理在真实世界命令行任务中的可靠性,例如自动化系统配置、漏洞检测或数据处理流水线搭建。这直接助力于开发能够理解复杂指令、自主执行终端操作并可靠完成目标的实用化AI助手,提升IT与软件工程领域的自动化水平。
数据集最近研究
最新研究方向
在终端智能体评估领域,OpenThoughts-TBLite数据集正推动着高效迭代与精准评测的前沿探索。该数据集作为Terminal-Bench 2.0的难度校准子集,通过预构建的Docker镜像与标准化测试套件,显著降低了智能体开发中的环境配置负担。当前研究聚焦于利用其分层难度结构,结合Claude Haiku等参考模型,深入分析智能体在安全、机器学习等复杂场景下的推理鲁棒性与泛化能力。这一方向紧密关联着自动化软件工程与AI辅助编程的热点,为构建更可靠、可扩展的终端智能体系统提供了关键基准,加速了实际应用场景中智能体技术的成熟与落地。
以上内容由遇见数据集搜集并总结生成



