five

OpenThoughts-TBLite

收藏
github2026-02-21 更新2026-02-26 收录
下载链接:
https://github.com/open-thoughts/OpenThoughts-TBLite
下载链接
链接失效反馈
官方服务:
资源简介:
OpenThoughts-TBLite是一个精心策划的100个终端基准任务的集合,旨在更快速、更有效地跟踪TB2性能。它包含不同难度的任务,分为简单、中等、困难和极端四个等级,任务覆盖了9个不同的类别,包括数据处理与脚本编写、安全与密码学、软件工程与开发等。

OpenThoughts-TBLite is a curated collection of 100 terminal benchmark tasks designed to track TB2 performance more rapidly and efficiently. It includes tasks with varying difficulty levels, categorized into four tiers: Simple, Medium, Hard, and Extreme. The tasks cover 9 distinct categories, including data processing and scripting, security and cryptography, software engineering and development, and others.
创建时间:
2026-02-20
原始信息汇总

OpenThoughts-TBLite 数据集概述

数据集简介

OpenThoughts-TBLite 是一个经过难度校准的基准测试数据集,用于构建终端智能体。它包含 100 个终端基准测试任务,旨在紧密跟踪 Terminal-Bench 2 (TB2) 的性能表现,但运行速度更快。该数据集在模型开发过程中能提供更多信息,非常适合用于调试、迭代和训练消融实验。

数据集构成

OpenThoughts-TBLite 包含 100 个终端智能体任务,这些任务经过校准,旨在为模型(特别是非前沿模型)提供更强的测量信号。

难度分布

使用 Claude Haiku 4.5 作为参考模型进行任务难度平衡,具体分布如下:

难度等级 通过率范围 任务数量
简单 >= 70% 40
中等 40-69% 26
困难 10-39% 26
极难 < 10% 8

任务类别

100 个任务涵盖 9 个不同的类别,确保了对现实世界软件工程技能的广泛覆盖:

类别 数量 百分比
数据处理与脚本编写 18 18%
安全与密码学 15 15%
软件工程与开发 13 13%
机器学习与人工智能 12 12%
交互式挑战与游戏 10 10%
调试与故障排除 10 10%
科学计算与分析 10 10%
系统设置与配置 8 8%
构建与依赖管理 4 4%

基准测试结果

OpenThoughts-TBLite 与 TB2 的得分相关性为 r = 0.911,表明它是 TB2 性能的有效代理。

部分模型在 OpenThoughts-TBLite 和 TB2 上的性能对比如下:

模型 OpenThoughts-TBLite TB2
moonshotai/Kimi-K2.5 75.1% ± 2.10 35.2% ± 1.72
zai-org/GLM-4.7 67.7% ± 2.08 35.2% ± 1.67
anthropic/claude-haiku-4-5 64.4% ± 3.78 28.3% ± 2.9
openai/gpt-5-mini 50.5% ± 2.23 24.9% ± 2.5
Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 42.1% ± 2.27 26.6% ± 0.00
Qwen/Qwen3-235B-A22B-Instruct-2507-tput 37.0% ± 2.32 14.6% ± 1.45
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 21.5% ± 1.78 9.5% ± 1.18

完整结果可查看:https://ot-agent-leaderboard.replit.app/

评估运行时间

OpenThoughts-TBLite 不仅对迭代更敏感,而且运行速度也快得多:

模型 OpenThoughts-TBLite 运行时间 TB2 运行时间 加速比
moonshotai/Kimi-K2.5 84 分钟 220 分钟 2.6倍
zai-org/GLM-4.7 65 分钟 300 分钟 4.6倍
openai/gpt-5-mini 51 分钟 397 分钟 7.8倍
anthropic/claude-haiku-4-5 76 分钟 605 分钟 8.0倍

所有结果均在 32 个并发 Daytona 云沙盒上使用 Harbor 框架测量,并采用默认超时限制。

使用 Harbor 进行评估

bash harbor run --dataset openthoughts-tblite --agent <AGENT_NAME> --model <MODEL_NAME> --n-concurrent 4

支持所有 LiteLLM 模型名称。

使用建议

建议将两个基准测试视为互补工具:

  • 使用 OpenThoughts-TBLite 进行快速迭代和获取调试信号。
  • 使用 TB2 进行最终的高难度验证。

相关资源

  • 博客文章:https://www.openthoughts.ai/blog/openthoughts-tblite
  • Hugging Face 数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-TBLite
  • 开发集 v1 (OpenThoughts-TB-dev):https://huggingface.co/datasets/open-thoughts/OpenThoughts-TB-dev
  • Terminal-Bench 2.0 排行榜:https://www.tbench.ai/leaderboard/terminal-bench/2.0
  • 完整结果排行榜:https://ot-agent-leaderboard.replit.app/

许可证

Apache 2.0

引用

bibtex @software{OpenThoughts-TBLite, author = {OpenThoughts-Agent team, Snorkel AI, Bespoke Labs}, month = Feb, title = {{OpenThoughts-TBLite: A High-Signal Benchmark for Iterating on Terminal Agents}}, howpublished = {https://www.openthoughts.ai/blog/openthoughts-tblite}, year = {2026} }

搜集汇总
数据集介绍
构建方式
在终端智能体评估领域,构建一个既能反映真实能力又便于快速迭代的基准测试集至关重要。OpenThoughts-TBLite数据集从广受认可的Terminal-Bench 2(TB2)评估集中精心筛选并重构而成,旨在为模型开发提供更高效的反馈信号。其构建过程以Claude Haiku 4.5模型作为参考基准,依据任务通过率将100个任务科学地划分为四个难度等级:简单、中等、困难和极端,并确保任务数量在不同难度上合理分布。同时,数据集覆盖了数据处理与脚本编写、安全与密码学、软件工程与开发等九大类别,确保了评估内容在软件工程实践中的广泛代表性。这种基于难度校准和类别平衡的构建方法,使得数据集在保留TB2核心挑战的同时,显著提升了评估效率。
特点
该数据集的核心特点在于其卓越的校准性与高效性。通过精细的难度分层设计,它既包含了足够数量的可解任务,以便敏锐地捕捉模型在迭代中的微小进步,又保留了相当比例的困难任务,避免了性能评估过早饱和,为模型能力提升预留了充足空间。数据集与原始TB2评估集保持了高达0.911的相关性,验证了其作为TB2性能代理的有效性。更突出的是,其评估运行时间相比TB2大幅缩短,实现了数倍的加速,这为研究人员在模型调试、提示工程优化、奖励函数设计等需要快速反馈的开发环节提供了极大便利。
使用方法
使用OpenThoughts-TBLite数据集进行评估,推荐通过Harbor评估框架进行。用户可在命令行中指定数据集名称、待评估的智能体以及模型,并设置并发数以控制评估速度。该框架支持所有LiteLLM兼容的模型名称,确保了评估流程的通用性与便捷性。在实际研发流程中,建议将OpenThoughts-TBLite与TB2结合使用,形成互补:在模型训练与快速迭代阶段,利用OpenThoughts-TBLite获得及时、敏感的调试信号;在最终验证阶段,则使用TB2进行高难度、综合性的性能确认。这种分层使用方法能够有效平衡开发效率与评估的严谨性。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,终端智能体作为能够理解并执行自然语言指令以操控计算机系统的代理,正成为研究热点。为加速此类模型的迭代与优化,由OpenThoughts Agent团队、Snorkel AI及Bespoke Labs于2026年联合构建了OpenThoughts-TBLite数据集。该数据集作为Terminal-Bench 2(TB2)的轻量化校准版本,旨在解决前沿评估基准在模型开发早期阶段信号微弱、运行耗时过长的问题。通过精心筛选100项涵盖数据处理、安全加密、软件开发等九大真实场景的任务,并依据难度分层校准,该数据集为中小规模模型的快速调试与性能提升提供了高效度量工具,显著推动了终端智能体在实用化道路上的发展进程。
当前挑战
终端智能体评估的核心挑战在于如何精准衡量模型在复杂、动态的软件环境中的实际解决问题能力。OpenThoughts-TBLite所应对的领域挑战是,当模型在TB2等前沿基准上表现接近基线时,微小的改进难以在总体分数中稳定显现,导致迭代周期迟缓。构建过程中的挑战则体现在任务难度校准与代表性平衡上:需以参考模型(如Claude Haiku 4.5)的通过率为依据,将任务划分为易、中、难、极难四级,确保既有足够可解任务以灵敏检测改进,又保留足够困难任务避免评估饱和,同时维持与TB2的高相关性(r=0.911),以验证其作为性能代理的有效性。
常用场景
经典使用场景
在终端智能体研发领域,OpenThoughts-TBLite数据集作为一款难度校准的基准测试工具,其经典使用场景聚焦于模型开发与迭代的高效调试环节。该数据集通过精心筛选的100个终端任务,覆盖了从数据处理到系统配置的九大软件工程类别,为研究人员在模型性能尚未达到前沿水平时提供了灵敏的反馈信号。开发团队能够借助其均衡的难度分布,在监督微调数据消融、强化学习奖励设计等关键阶段,快速检测模型改进的细微变化,从而加速迭代循环,优化智能体在复杂终端环境中的实际表现。
实际应用
在实际应用层面,OpenThoughts-TBLite数据集显著提升了终端智能体在产业环境中的部署效率与可靠性。其任务设计紧密贴合真实世界的软件工程需求,涵盖安全加密、机器学习、调试排错等多样化场景,使得训练后的智能体能够直接应用于自动化脚本编写、系统配置管理及开发流程优化等实际任务。数据集的高运行效率——相较于TB2基准最高可达8倍加速,大幅降低了模型验证的时间与计算成本,为企业在持续集成、运维自动化等领域的快速原型开发与产品迭代提供了强有力的工具支持。
衍生相关工作
围绕OpenThoughts-TBLite数据集,已衍生出一系列终端智能体领域的经典研究工作。基于其高信号特性,许多团队在模型架构优化、工具使用策略及提示工程等方面展开了深入探索,例如利用该数据集进行监督微调数据的消融实验,以精确量化不同训练数据对性能的影响。同时,结合Harbor评估框架,研究者们开发了多种并发测试方案,进一步推动了终端智能体评估标准的规范化。这些工作不仅巩固了数据集在学术界的基准地位,也为后续更复杂的智能体系统,如多模态终端交互与自主问题解决框架的构建,奠定了坚实的实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作