AutoTraj (包含Dsft和Dself两个子数据集)

Name: AutoTraj (包含Dsft和Dself两个子数据集)
Creator: 东南大学·计算机科学与工程学院; 中国科学技术大学·认知智能国家重点实验室
Published: 2026-01-30 22:42:04
License: 暂无描述

arXiv2026-01-30 更新2026-02-05 收录

下载链接：

https://github.com/GSYY0607/AutoTraj_code

下载链接

链接失效反馈

官方服务：

资源简介：

AutoTraj是由东南大学和中国科学技术大学联合构建的面向工具集成推理（TIR）任务的专用数据集，包含两个核心子集：Dsft通过大语言模型修复低质量工具使用轨迹生成，用于监督微调训练；Dself由修复后轨迹与原低质轨迹配对构成，支持轨迹级奖励模型训练。数据集覆盖数学推理和知识密集型推理场景，通过多维度评估（答案正确性、置信度等）确保轨迹质量，旨在解决TIR中监督信号稀疏和轨迹质量偏差问题。

AutoTraj is a specialized dataset dedicated to the Tool Integration Reasoning (TIR) task, jointly developed by Southeast University and the University of Science and Technology of China. It comprises two core subsets: Dsft, which is generated by repairing low-quality tool-use trajectories with large language models (LLMs) and intended for supervised fine-tuning training; and Dself, which consists of paired data of repaired trajectories and original low-quality trajectories, supporting trajectory-level reward model training. The dataset covers scenarios of mathematical reasoning and knowledge-intensive reasoning, and ensures trajectory quality via multi-dimensional evaluations such as answer correctness and confidence level. It aims to solve the problems of sparse supervision signals and biased trajectory quality in TIR tasks.

提供机构：

东南大学·计算机科学与工程学院; 中国科学技术大学·认知智能国家重点实验室

创建时间：

2026-01-30

原始信息汇总

AutoTraj数据集概述

数据集基本信息

数据集名称：AutoTraj
主要用途：用于训练和评估轨迹生成模型，支持监督微调（SFT）、强化学习（RL）和工具集成推理（TIR）评估。

数据集内容与结构

SFT阶段数据集：包含高质量轨迹数据，文件为sft_high_quality_trajectory_masked.json，需放置在LLaMA-Factory/data/目录下。
奖励模型数据集：包含比较对数据，文件为rm_compare_pairs_masked.json，需放置在LLaMA-Factory/data/目录下。
数据集注册：需在LLaMA-Factory/data/dataset_info.json文件中注册上述数据集。

数据处理与训练流程

1. 监督微调（SFT）

环境依赖：通过for_sft_requirements.txt安装。
训练框架：基于LLaMA-Factory。
配置步骤：
1. 准备数据集并放置到指定路径。
2. 在dataset_info.json中注册数据集。
3. 配置训练文件qwen_sft_autotraj.yaml。
4. 运行训练脚本train_sft.sh。

2. 奖励模型训练

数据集：使用rm_compare_pairs_masked.json。
配置步骤：
1. 准备数据集并注册。
2. 编辑配置文件qwen_lora_reward.yaml。
3. 运行训练脚本train_rm.sh。

3. 强化学习（RL）阶段

环境依赖：通过grpo_requirements.txt安装。
训练框架：基于VERL和Tool-Star。
核心组件：
- 滚动实现：src/verl/verl/workers/rollout/vllm_rollout/vllm_rollout.py
- 奖励计算：src/verl/verl/utils/reward_score
训练步骤：
1. 配置训练脚本run_tool_star.sh。
2. 启动奖励模型服务rm_server.sh。
3. 运行RL训练run_tool_star.sh。
模型转换：使用Tool_Star_RL/model_merger.py将RL检查点转换为Hugging Face格式。

4. TIR评估

环境依赖：通过inference_requirements.txt安装。
检索服务：基于FlashRAG和FastAPI部署Wikipedia检索服务。
资源准备：需下载预索引的Wikipedia、Wikipedia语料库及对应的检索模型。
服务配置：编辑evaluation/search/serving_config.yaml，填写检索模型路径、索引路径、语料库路径和可用GPU ID。
服务启动：运行host_wiki.py启动检索服务。
推理生成：运行AutoTraj/trajectory_generate/start_generate.sh进行轨迹生成。

注意事项

训练前需确保所有数据集路径配置正确。

搜集汇总

数据集介绍

构建方式

在工具集成推理领域，高质量轨迹的获取往往面临成本高昂与可扩展性不足的挑战。AutoTraj数据集通过两阶段框架创新性地解决了这一问题。其构建始于从Tool-Star数据集中采样一万个查询-答案对，并利用具备工具调用能力的基模型为每个查询生成多条候选推理轨迹。这些轨迹随后接受多维评估，涵盖答案正确性、推理置信度、轨迹长度及文本重复率等指标，据此划分为高质量与低质量两组。关键创新在于，低质量轨迹并非简单过滤，而是通过大语言模型扮演修复者角色进行自动修正与补全。修复后的轨迹与原始高质量轨迹共同构成监督微调数据集Dsft；同时，每条修复轨迹与其对应的原始低质量轨迹配对，形成轨迹偏好建模数据集Dself，为后续奖励模型训练提供细粒度监督信号。

使用方法

AutoTraj数据集的使用紧密围绕其两阶段训练框架展开。在监督微调阶段，研究者可利用Dsft数据集对基础语言模型进行冷启动训练，以掌握基本的工具调用与推理能力。随后，在强化学习阶段，Dself数据集用于训练轨迹奖励模型，该模型能够对推理路径的质量进行细粒度评估。最终，在策略优化过程中，将轨迹奖励与格式奖励、结果奖励相结合，形成层次化的奖励函数，通过分组相对策略优化等方法对模型进行进一步调优。这种使用方法使得模型不仅关注最终答案的正确性，还能显式地优化中间推理过程的质量，从而学习到更可靠、更高效的工具集成推理行为。

背景与挑战

背景概述

AutoTraj数据集由东南大学与中国科学技术大学的研究团队于2026年提出，旨在解决工具集成推理领域中的核心问题。随着大语言模型在复杂推理任务中展现出卓越能力，如何使其有效调用外部工具以扩展问题解决范围成为关键挑战。该数据集通过自动修复与奖励工具使用轨迹，构建了包含Dsft和Dself两个子集的高质量监督数据，为工具集成推理模型的训练提供了可扩展且多样化的轨迹样本，显著提升了模型在数学推理与知识密集型任务中的性能。

当前挑战

AutoTraj数据集面临的挑战主要体现在两个方面：在领域问题层面，工具集成推理长期依赖人工标注的高质量轨迹，成本高昂且难以扩展，而现有自动合成方法通常通过启发式评分筛选轨迹，导致数据多样性受限与训练分布偏差；在构建过程层面，低质量轨迹的修复需要精确的多维度评估与LLM驱动的修正机制，同时强化学习阶段中仅基于结果的奖励信号稀疏，难以对中间推理路径提供细粒度监督，这要求设计轨迹级奖励模型以缓解奖励稀疏性问题并引导模型生成可靠的推理行为。

常用场景

经典使用场景

在工具集成推理领域，AutoTraj数据集的核心应用场景在于为大型语言模型提供高质量、多样化的工具使用轨迹数据，以支持两阶段训练范式。该数据集通过自动合成、评估与修复机制，构建了包含原始高质量轨迹与修复后轨迹的监督微调数据集Dsft，以及由正负轨迹对组成的偏好建模数据集Dself。这些数据为模型在复杂推理任务中学习稳定、高效的工具调用策略奠定了坚实基础，尤其在数学推理与知识密集型问答等需要多步外部工具交互的场景中展现出显著价值。

解决学术问题

AutoTraj数据集有效应对了工具集成推理研究中长期存在的两大挑战：高质量轨迹数据稀缺与奖励稀疏性。传统方法依赖人工标注或简单筛选的合成轨迹，成本高昂且易导致数据分布偏差；而仅基于最终结果的奖励信号难以对中间推理路径提供细粒度监督。该数据集通过轨迹修复机制将低质量样本转化为有效训练数据，显著提升了数据多样性与利用率；同时其构建的轨迹级奖励模型为强化学习提供了密集、稳定的优化信号，引导模型学习更可靠、结构化的推理行为，从而在根本上提升了工具集成推理的鲁棒性与泛化能力。

实际应用

在实际应用层面，AutoTraj数据集支撑的模型已成功部署于多种需要复杂工具调用的现实场景。在数学解题领域，模型能够自主判断何时调用代码解释器执行计算，显著提升了多元方程组求解、几何证明等任务的准确率。在知识密集型问答系统中，模型可动态结合搜索引擎获取外部知识，完成多跳推理与事实核查。此外，在金融分析、科研文献检索等专业领域，该数据集训练的模型展现出良好的工具协同能力与决策可解释性，为构建高效、可信的智能助手提供了关键技术支撑。

数据集最近研究