Toolathlon-Trajectories

Name: Toolathlon-Trajectories
Creator: HKUST NLP Group
Published: 2025-10-26 23:17:32
License: 暂无描述

Hugging Face2025-10-26 更新2025-10-27 收录

下载链接：

https://huggingface.co/datasets/hkust-nlp/Toolathlon-Trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

Toolathlon是一个综合性的基准测试，用于评估语言代理在多样化、现实和长周期任务上的表现。该数据集包含了17种最先进的语言模型在Toolathlon基准测试上的完整执行轨迹，共超过5000条任务执行记录。数据集采用JSONL格式存储，每行代表一个任务的执行轨迹。

Toolathlon is a comprehensive benchmark designed to evaluate the performance of language agents on diverse, realistic, and long-duration tasks. This dataset contains complete execution trajectories of 17 state-of-the-art language models on the Toolathlon benchmark, with over 5,000 task execution records in total. The dataset is stored in JSONL format, where each line represents the execution trajectory of a single task.

提供机构：

HKUST NLP Group

创建时间：

2025-10-20

原始信息汇总

Toolathlon-Trajectories 数据集概述

数据集基本信息

许可证: CC-BY-4.0
语言: 英语
标签: 智能体
数据集名称: toolathlon
规模: 1K<n<10K

数据集简介

该数据集包含在Toolathlon基准测试上评估的17个最先进语言模型的完整执行轨迹。Toolathlon是一个用于评估语言智能体在多样化、现实和长视野任务上的综合基准测试。

数据集统计

轨迹文件数量: 51个文件（17个模型×3次运行）
每个文件任务数: 约108个任务（取决于成功完成情况）
总轨迹数: 超过5,000个任务执行记录
文件格式: JSONL（每行一个任务轨迹）

数据集用途

分析不同大语言模型如何使用工具完成现实世界任务
研究智能体推理模式和工具使用策略
比较不同模型系列的性能表现
调查失败模式和错误恢复策略

数据集结构

文件命名规范

{模型名称}_{运行编号}.jsonl

示例文件名:

gpt-5-high_1.jsonl - GPT-5 High，第一次运行
claude-4.5-sonnet-0929_2.jsonl - Claude 4.5 Sonnet，第二次运行
gemini-2.5-pro_3.jsonl - Gemini 2.5 Pro，第三次运行

包含的模型

模型系列	模型名称
OpenAI GPT	`gpt-5`, `gpt-5-high`, `gpt-5-mini`
OpenAI o系列	`o3`, `o4-mini`
Anthropic Claude	`claude-4-sonnet-0514`, `claude-4.5-sonnet-0929`, `claude-4.5-haiku-1001`
Grok	`grok-4`, `grok-4-fast`, `grok-code-fast-1`
Google Gemini	`gemini-2.5-pro`, `gemini-2.5-flash`
DeepSeek	`deepseek-v3.2-exp`
阿里巴巴Qwen	`qwen-3-coder`
Moonshot Kimi	`kimi-k2-0905`
Zhipu GLM	`glm-4.6`

数据格式

每个JSONL文件每行包含一个JSON对象，代表单个任务执行轨迹：

json { "task_name": "任务名称", "task_status": { "preprocess": "预处理状态", "running": "运行状态", "evaluation": "评估结果" }, "traj_log": { "config": {...}, "messages": [...], "tool_calls": [...], "key_stats": {...}, "agent_cost": {...}, "user_cost": {...}, ... } }

字段说明

task_name: 任务唯一标识符
task_status: 执行状态信息
traj_log: 完整执行轨迹，包含：
- config: 任务配置
- messages: 完整对话历史
- tool_calls: 所有工具调用记录
- key_stats: 摘要统计信息
- agent_cost: 智能体模型API成本
- user_cost: 用户模拟器模型API成本

隐私与匿名化

所有敏感凭据和API令牌均已匿名化处理：

识别所有API密钥、令牌、密码和凭据
保留每个敏感字符串的前1/6和后1/6部分
中间部分用星号替换

引用

bibtex @article{toolathlon2025, title={The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution}, author={Your Authors}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2025} }

许可证

CC-BY-4.0

搜集汇总

数据集介绍

构建方式

在语言智能体研究领域，Toolathlon-Trajectories数据集通过系统化评估框架构建而成。该数据集采集了17种前沿语言模型在多样化现实任务中的完整执行轨迹，涵盖三个独立运行周期，每个模型生成约108项任务记录。数据以JSONL格式存储，每条轨迹包含任务配置、工具调用序列及执行元数据，通过自动化流程记录智能体与模拟环境的交互全过程，确保了数据采集的全面性与可复现性。

特点

该数据集的核心价值体现在其多维度的特性架构上。其囊括了涵盖金融分析、代码开发等十类现实场景的长时程任务，完整保留了智能体的推理链条与工具调用策略。数据集中包含超过5000条轨迹记录，通过标准化的状态标注体系呈现任务执行进度与评估结果。特别值得注意的是，所有敏感信息均经过分段保留首尾字符的匿名化处理，既保障隐私安全又维持数据结构完整性。

使用方法

研究者可通过模型名称与运行编号的命名规范快速定位特定轨迹文件。每条JSONL记录包含任务状态、对话历史、工具调用统计等结构化字段，支持对智能体行为模式的量化分析。数据集支持跨模型对比研究，可通过轨迹日志中的关键统计指标评估不同架构的语言模型在复杂任务中的表现差异，为智能体决策机制研究提供实证基础。

背景与挑战

背景概述

在人工智能领域，语言智能体执行复杂任务的能力评估一直是关键研究方向。Toolathlon-Trajectories数据集由香港科技大学自然语言处理团队于2025年创建，聚焦于语言模型在多样化、真实场景及长周期任务中的工具调用行为分析。该数据集收录了17种前沿语言模型在Toolathlon基准测试中的完整执行轨迹，涵盖超过5000条任务记录，为研究社区提供了系统评估智能体推理模式与工具使用策略的标准化数据基础。

当前挑战

该数据集致力于解决语言智能体在现实场景中工具调用的核心挑战，包括多步骤任务规划的动态协调、异构工具接口的语义对齐、以及长周期任务执行中的错误累积问题。在构建过程中，研究团队面临轨迹数据采集的完整性保障挑战，需同步记录模型交互、工具调用与状态变更的多元时序数据；同时需平衡隐私保护与数据效用，通过分段保留与星号替换策略实现敏感凭证的匿名化处理。

常用场景

经典使用场景

在智能体研究领域，Toolathlon-Trajectories数据集为评估语言模型在多样化现实任务中的表现提供了基准。该数据集通过记录17种前沿语言模型在长周期任务中的完整执行轨迹，使研究人员能够深入分析模型如何调用工具解决复杂问题，例如从学术文献检索到多步骤数据分析等场景。这些轨迹不仅揭示了模型在工具调用策略上的差异，还为优化智能体决策流程提供了实证基础。

衍生相关工作

基于该数据集衍生的研究已催生出多类重要工作，包括工具调用链可视化分析框架与跨模型能力迁移研究。部分团队利用轨迹中的错误模式数据开发了智能体自我修正算法，另有研究通过对比GPT系列与Claude模型的工具选择策略，提出了工具适配性评估指标。这些成果持续推动着语言智能体在复杂环境中的鲁棒性提升。

数据集最近研究