TU_Pipeline

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/guanzhong2/TU_Pipeline

下载链接

链接失效反馈

官方服务：

资源简介：

TU-Pipeline是一个用于在可执行模拟环境中训练和评估大型语言模型（LLM）智能体的合成多轮工具使用数据集。该数据集包含4,088个经过去重处理的任务记录和2,174个独立的环境源代码文件。数据来源于三个内部合成源（data、data2、data3）的合并，并经过过滤和全局去重处理。每个数据记录包含13个核心字段，如任务ID、用户问题、任务类别、环境ID等，其中多个结构化字段以JSON字符串形式存储以保持跨环境模式稳定性。数据集旨在支持工具使用智能体、多轮智能体训练、轨迹回放与验证以及基于状态的评估等研究。需要注意的是，数据为合成数据，受限于源环境的假设和覆盖范围，任务分布受内部策略影响，且环境文件名在发布版本中通过打包方式避免冲突。

TU-Pipeline is a synthetic multi-turn tool-use dataset for training and evaluating large language model (LLM) agents in executable simulation environments. The dataset contains 4,088 deduplicated task records and 2,174 independent environment source code files. It is derived from the merger of three internal synthetic sources (data, data2, data3) and has undergone filtering and global deduplication. Each data record includes 13 core fields, such as task_id, question, task_category, environment_id, etc., with multiple structured fields stored as JSON strings to maintain schema stability across heterogeneous environments. The dataset aims to support research in tool-use and function-calling agents, multi-turn agent training, trajectory replay and verification, and state-based evaluation in simulation environments. Note that the data is synthetic and limited by the assumptions and coverage of the source environments; task distribution is influenced by internal filtering and deduplication strategies; and environment code filenames may overlap across internal sources, with this release version avoiding conflicts by retaining source-based packaged filenames.

创建时间：

2026-05-06

搜集汇总

数据集介绍

构建方式

TU_Pipeline数据集是一个面向大规模语言模型（LLM）智能体的合成多轮工具使用数据集，其构建基于模拟环境中的可执行交互轨迹。该数据集整合了三个内部来源（data、data2、data3）的数据，经过严格过滤与全局去重后，最终形成包含4,088条独立任务记录的发布版本。每条记录均封装了执行环境代码文件路径、问题描述、实际执行轨迹、步骤结果、地面真值状态及答案验证等核心信息，确保数据在异构环境下的模式稳定性。环境代码采用独立存储方式，与数据集包一同发布，便于用户灵活调用。

使用方法

使用TU_Pipeline数据集时，用户可通过HuggingFace的datasets库直接加载指定配置（如'full'），获取训练集数据。环境代码需通过snapshot_download函数从HuggingFace Hub独立下载，以便在本地重建模拟环境并运行任务。每条记录包含env_code_file、question、actual_trajectory等字段，用户可基于这些信息进行多轮智能体训练、轨迹验证或状态评估。该数据集适用于研究工具使用、函数调用、多轮对话智能体训练及基于状态的评估等方向，对应的训练脚本与数据处理管线已在相关GitHub仓库中公开提供。

背景与挑战

背景概述

TU_Pipeline数据集由研究者于2026年创建，旨在为大型语言模型（LLM）智能体提供可执行模拟环境下的多轮工具使用训练与评估资源。该数据集由guanzhong2等机构发布，聚焦于工具调用与函数执行能力，通过合成轨迹数据推动智能体在复杂任务中的自主决策与状态验证研究。其核心研究问题在于如何构建高保真的模拟环境并生成多样化的工具交互轨迹，以弥补真实数据稀缺的短板。作为一项系统性数据工程成果，TU_Pipeline通过全局去重与多源融合策略，提供了4088条标准化任务记录及2174个环境源文件，对智能体学习、轨迹回放与评估领域具有重要参考价值。

当前挑战

TU_Pipeline所解决的领域挑战在于LLM智能体在动态模拟环境中的多轮工具调用与状态推理能力，尤其是任务分布不均、环境代码重叠及合成数据覆盖局限等问题。构建过程中，研究者面临三大挑战：一是从三个内部数据源中筛选并全局去重，确保任务唯一性；二是处理异质环境下的字段稳定性，通过JSON字符串存储结构化信息以兼容不同模拟器；三是避免源包间文件名冲突，通过源感知打包策略保留原始路径。这些挑战反映了合成数据从生成、清洗到格式统一的全链路复杂性，为后续工具智能体数据构建提供了方法论参考。

常用场景

经典使用场景

在智能体（Agent）与工具调用（Tool-Use）的研究领域中，TU-Pipeline 数据集被广泛用于训练与评估多轮交互下的大语言模型代理。其核心使用场景聚焦于模拟可执行环境中的多步工具调用任务，涵盖任务规划、轨迹执行与状态验证等关键环节。通过提供 4,088 条去重后的合成轨迹记录及 2,174 个可执行环境代码文件，研究者能够构建并测试模型在复杂、非确定性环境中的决策能力，尤其适用于需要连续工具调用与状态追踪的强化学习与文本生成任务。

解决学术问题

该数据集有效应对了当前大语言模型在工具使用领域面临的三大核心学术挑战：一是多轮交互中的轨迹一致性维护问题，二是合成数据中环境与动作的真实可执行性问题，三是异构任务下的评估标准化难题。TU-Pipeline 通过提供包含真实环境代码与全局状态验证字段的结构化数据，为研究多步推理中的误差累积、工具选择策略优化以及代理行为的可重复性评估提供了基准平台。其意义在于弥合了静态问答数据与动态环境仿真之间的鸿沟，推动了从单次函数调用到多轮任务规划的范式演进。

实际应用

在实际应用层面，TU-Pipeline 所模拟的多轮工具调用场景直接映射到多种生产环境中的自动化需求。例如，企业级客服系统中的 API 编排、数据库查询中的多表联合操作、以及云服务资源管理中的连续配置变更。通过在此数据集上训练的代理模型，能够学习如何根据自然语言指令自动分解任务、按序调用外部工具并依据返回结果动态调整后续动作，从而显著提升 RPA（机器人流程自动化）和智能工作流引擎的灵活性与鲁棒性。

数据集最近研究