OpenThoughts-TBLite
收藏OpenThoughts-TBLite 数据集概述
数据集简介
OpenThoughts-TBLite 是一个经过难度校准的基准测试数据集,用于构建终端智能体。它包含 100 个终端基准测试任务,旨在紧密跟踪 Terminal-Bench 2 (TB2) 的性能表现,但运行速度更快。该数据集在模型开发过程中能提供更多信息,非常适合用于调试、迭代和训练消融实验。
数据集构成
OpenThoughts-TBLite 包含 100 个终端智能体任务,这些任务经过校准,旨在为模型(特别是非前沿模型)提供更强的测量信号。
难度分布
使用 Claude Haiku 4.5 作为参考模型进行任务难度平衡,具体分布如下:
| 难度等级 | 通过率范围 | 任务数量 |
|---|---|---|
| 简单 | >= 70% | 40 |
| 中等 | 40-69% | 26 |
| 困难 | 10-39% | 26 |
| 极难 | < 10% | 8 |
任务类别
100 个任务涵盖 9 个不同的类别,确保了对现实世界软件工程技能的广泛覆盖:
| 类别 | 数量 | 百分比 |
|---|---|---|
| 数据处理与脚本编写 | 18 | 18% |
| 安全与密码学 | 15 | 15% |
| 软件工程与开发 | 13 | 13% |
| 机器学习与人工智能 | 12 | 12% |
| 交互式挑战与游戏 | 10 | 10% |
| 调试与故障排除 | 10 | 10% |
| 科学计算与分析 | 10 | 10% |
| 系统设置与配置 | 8 | 8% |
| 构建与依赖管理 | 4 | 4% |
基准测试结果
OpenThoughts-TBLite 与 TB2 的得分相关性为 r = 0.911,表明它是 TB2 性能的有效代理。
部分模型在 OpenThoughts-TBLite 和 TB2 上的性能对比如下:
| 模型 | OpenThoughts-TBLite | TB2 |
|---|---|---|
| moonshotai/Kimi-K2.5 | 75.1% ± 2.10 | 35.2% ± 1.72 |
| zai-org/GLM-4.7 | 67.7% ± 2.08 | 35.2% ± 1.67 |
| anthropic/claude-haiku-4-5 | 64.4% ± 3.78 | 28.3% ± 2.9 |
| openai/gpt-5-mini | 50.5% ± 2.23 | 24.9% ± 2.5 |
| Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 | 42.1% ± 2.27 | 26.6% ± 0.00 |
| Qwen/Qwen3-235B-A22B-Instruct-2507-tput | 37.0% ± 2.32 | 14.6% ± 1.45 |
| nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 | 21.5% ± 1.78 | 9.5% ± 1.18 |
完整结果可查看:https://ot-agent-leaderboard.replit.app/
评估运行时间
OpenThoughts-TBLite 不仅对迭代更敏感,而且运行速度也快得多:
| 模型 | OpenThoughts-TBLite 运行时间 | TB2 运行时间 | 加速比 |
|---|---|---|---|
| moonshotai/Kimi-K2.5 | 84 分钟 | 220 分钟 | 2.6倍 |
| zai-org/GLM-4.7 | 65 分钟 | 300 分钟 | 4.6倍 |
| openai/gpt-5-mini | 51 分钟 | 397 分钟 | 7.8倍 |
| anthropic/claude-haiku-4-5 | 76 分钟 | 605 分钟 | 8.0倍 |
所有结果均在 32 个并发 Daytona 云沙盒上使用 Harbor 框架测量,并采用默认超时限制。
使用 Harbor 进行评估
bash harbor run --dataset openthoughts-tblite --agent <AGENT_NAME> --model <MODEL_NAME> --n-concurrent 4
支持所有 LiteLLM 模型名称。
使用建议
建议将两个基准测试视为互补工具:
- 使用 OpenThoughts-TBLite 进行快速迭代和获取调试信号。
- 使用 TB2 进行最终的高难度验证。
相关资源
- 博客文章:https://www.openthoughts.ai/blog/openthoughts-tblite
- Hugging Face 数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-TBLite
- 开发集 v1 (OpenThoughts-TB-dev):https://huggingface.co/datasets/open-thoughts/OpenThoughts-TB-dev
- Terminal-Bench 2.0 排行榜:https://www.tbench.ai/leaderboard/terminal-bench/2.0
- 完整结果排行榜:https://ot-agent-leaderboard.replit.app/
许可证
Apache 2.0
引用
bibtex @software{OpenThoughts-TBLite, author = {OpenThoughts-Agent team, Snorkel AI, Bespoke Labs}, month = Feb, title = {{OpenThoughts-TBLite: A High-Signal Benchmark for Iterating on Terminal Agents}}, howpublished = {https://www.openthoughts.ai/blog/openthoughts-tblite}, year = {2026} }



