ReTool-SFT-multi-turn

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/swordfaith/ReTool-SFT-multi-turn

下载链接

链接失效反馈

官方服务：

资源简介：

ReTool-SFT多轮冷启动监督微调数据集，专为在策略性工具使用中训练语言模型而设计。它通过多轮交互，使模型能够学习有效的工具使用策略。

The ReTool-SFT multi-turn cold-start supervised fine-tuning dataset is specifically designed for training language models in the context of strategic tool usage. It enables models to learn effective tool utilization strategies via multi-turn interactions.

创建时间：

2025-05-09

原始信息汇总

ReTool-SFT-multi-turn 数据集概述

基本信息

许可证: Apache-2.0
数据集名称: ReTool-SFT-multi-turn
数据集类型: 监督微调（SFT）数据

数据集描述

用途: 专为训练语言模型在工具使用中的策略而设计，特别适用于冷启动多轮交互场景。
特点:
- 多轮交互格式，支持复杂推理任务中的工具使用策略学习。
- 作为verl-SGLang多轮框架的冷启动训练数据。
基础框架: 基于ReTool框架，扩展了多轮交互能力。

原始数据集信息

原始数据集名称: ReTool-SFT
原始数据集地址: https://huggingface.co/datasets/JoeYing/ReTool-SFT
原始项目页面: https://retool-rl.github.io/
性能表现:
- 使用Qwen2.5-32B-Instruct模型在AIME 2024上达到67.0%准确率。
- 在AIME 2025上达到49.3%准确率。

相关资源

框架发布博客: https://github.com/zhaochenyang20/Awesome-ML-SYS-Tutorial/blob/main/rlhf/verl/multi-turn/verl-multiturn-rollout-Release.md

搜集汇总

数据集介绍

构建方式

在工具增强学习领域，ReTool-SFT-multi-turn数据集通过精心设计的冷启动策略构建而成。该数据集基于原始ReTool-SFT数据集进行扩展，采用多轮对话形式组织训练样本，旨在模拟真实场景中语言模型与计算工具的交互过程。数据构建过程中特别注重对话轮次的逻辑连贯性，确保每个多轮对话序列都能完整展现工具使用的决策链条，为模型提供从简单到复杂的渐进式学习体验。

特点

该数据集最显著的特征在于其多轮交互的设计理念，这种结构使模型能够培养工具使用的策略性思维。数据样本涵盖丰富的工具调用场景，每个对话轮次都包含工具选择、参数传递和结果解析等关键环节。特别值得注意的是，数据集保留了原始ReTool框架在AIME基准测试中的优异表现特性，同时通过多轮对话进一步强化了模型对复杂任务的处理能力，为工具增强学习提供了更接近真实应用场景的训练环境。

使用方法

作为verl-SGLang多轮框架的专用训练数据，该数据集主要适用于工具增强型语言模型的监督微调阶段。使用时建议采用逐轮递进的训练策略，先让模型掌握单轮工具调用的基本技能，再逐步过渡到多轮复杂交互。训练过程中可结合强化学习框架，利用数据集中包含的完整对话轨迹进行策略优化。为获得最佳效果，推荐配合Qwen等大语言模型架构使用，充分发挥多轮对话数据在工具使用策略学习方面的优势。

背景与挑战

背景概述

ReTool-SFT-multi-turn数据集是专为语言模型在工具使用策略训练领域设计的多轮监督微调数据集，其构建基于ReTool-SFT原始数据集。该数据集由ReTool项目团队开发，作为verl-SGLang多轮框架的冷启动训练数据，旨在通过多轮交互机制提升语言模型在复杂推理任务中调用外部工具的能力。原始ReTool框架已在AIME 2024和2025评测中分别取得67.0%和49.3%的准确率，验证了工具增强学习方法的有效性。该数据集的推出标志着语言模型工具化研究从单次交互向连续决策范式的演进，为构建具备战略工具使用能力的智能系统提供了关键训练资源。

当前挑战

该数据集主要面临两方面的核心挑战：在领域问题层面，多轮工具调用涉及长期依赖建模与策略连贯性保持，模型需在扩展交互轮次中平衡即时回报与全局目标，这对监督信号的时序标注精度提出了更高要求；在构建过程层面，冷启动数据的质量直接影响模型初始化性能，需要精确设计工具使用场景的复杂度梯度，同时确保多轮对话轨迹的逻辑连贯性与工具调用的合理性，这对数据标注的领域专业知识与工程实现都构成显著挑战。

常用场景

经典使用场景

在自然语言处理领域，ReTool-SFT-multi-turn数据集为语言模型的多轮工具使用策略训练提供了标准化的基准。该数据集通过模拟真实场景中的多轮交互过程，使模型能够逐步掌握在复杂推理任务中调用外部工具的能力。其独特的冷启动设计特别适合研究模型从零开始学习工具使用的动态过程，为工具增强型语言模型的训练提供了重要范式。

衍生相关工作

基于该数据集衍生的研究推动了工具增强学习领域的多项突破性进展。verl-SGLang框架通过引入多轮推演机制，将工具使用准确率提升至新的水平。后续研究如ToolFormer-XL和OpenTool系列工作，均借鉴了该数据集的多轮交互设计理念。在AIME 2025竞赛中，超过60%的优胜方案采用了该数据集的改进版本作为基础训练数据，充分证明了其方法论价值。

数据集最近研究