ReplayDPO

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Naclin/ReplayDPO

下载链接

链接失效反馈

官方服务：

资源简介：

ReplayDPO是一个专门为工具使用智能体（基于Qwen3.5-9B模型）进行直接偏好优化（DPO）或分布式多目标策略优化（DMPO）训练而构建的偏好对数据集。该数据集旨在通过强化学习从人类反馈（RLHF）范式提升智能体在复杂任务中使用外部工具的能力。数据来源于两个主要渠道：一是通过多轮交互生成的“StableToolBench”（G1和G2版本）任务执行轨迹树，二是对“HotpotQA”问答任务中失败案例的重放尝试。数据生成采用了一个精密的管道：首先运行智能体收集初始工具使用轨迹，然后使用逐块LLM判断器定位错误步骤并生成改进建议，接着基于这些建议对错误步骤进行多次（K=3）重放以生成新的分支，最后通过多种策略（如同级分支对比、跨深度对比、根节点对比）并配合分数差（margin）过滤来提取高质量的偏好对。数据集以JSONL格式提供，包含四个主要文件，根据偏好对中“被选择”与“被拒绝”轨迹之间的最小分数差（0.05或0.10）以及是否应用了额外的结构性过滤（v2版本）进行区分。v2版本被推荐用于新的训练，因为它移除了可能引入错误信号的数据（如不含Finish工具的HotpotQA救援对、仅被拒绝方正确结束的对、以及选择方评分过低的对）。每个数据样本包含共享的对话前缀、完整的被选择与被拒绝消息序列、对应的评分、分数差、配对类型和来源。配对类型包括“sibling”（同一提示下的不同重放分支）、“cross_depth”（不同深度的节点）、“root”（与初始根节点对比）和“hotpotqa_rescue”（HotpotQA失败救援）。数据集规模在235到573个偏好对之间，具体取决于所选文件。该数据集适用于训练和微调大型语言模型，使其在需要规划、工具调用和多步推理的开放域任务中表现出更优、更可靠的决策和行为。

ReplayDPO is a preference dataset specifically constructed for Direct Preference Optimization (DPO) or Distributed Multi-Objective Policy Optimization (DMPO) training of tool-using agents (based on the Qwen3.5-9B model). The dataset aims to enhance agents ability to use external tools in complex tasks through the Reinforcement Learning from Human Feedback (RLHF) paradigm. Data is sourced from two main channels: one is the task execution trajectory trees generated through multi-turn interactions in StableToolBench (G1 and G2 versions), and the other is replay attempts on failed cases in the HotpotQA question-answering task. The data generation employs a sophisticated pipeline: first, the agent is run to collect initial tool-use trajectories; then, a chunk-by-chunk LLM judge is used to locate error steps and generate improvement suggestions; next, based on these suggestions, multiple (K=3) replays are performed on the error steps to generate new branches; finally, high-quality preference pairs are extracted through various strategies (such as sibling branch comparison, cross-depth comparison, root comparison) combined with margin filtering. The dataset is provided in JSONL format and includes four main files, distinguished by the minimum score difference (0.05 or 0.10) between the chosen and rejected trajectories in the preference pairs and whether additional structural filtering (v2 version) is applied. The v2 version is recommended for new training as it removes data that may introduce erroneous signals (e.g., HotpotQA rescue pairs without Finish tools, pairs where only the rejected side ends correctly, and pairs with excessively low scores for the chosen side). Each data sample includes a shared dialogue prefix, complete sequences of chosen and rejected messages, corresponding scores, score differences, pairing types, and sources. Pairing types include sibling (different replay branches under the same prompt), cross_depth (nodes at different depths), root (comparison with the initial root node), and hotpotqa_rescue (HotpotQA failure rescue). The dataset size ranges from 235 to 573 preference pairs, depending on the selected file. This dataset is suitable for training and fine-tuning large language models to exhibit better and more reliable decision-making and behavior in open-domain tasks requiring planning, tool invocation, and multi-step reasoning.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

ReplayDPO数据集专为工具智能体（如Qwen3.5-9B）的直接偏好优化（DPO）训练而设计，其构建依托于多分支重放流水线。首先在StableToolBench的G1与G2任务树及HotpotQA的失败轨迹上运行智能体，收集工具调用链路。随后采用分块大模型裁判（gpt-5.4-mini）定位首个错误助手轮次，并生成1至3条可操作建议。基于此，从错误步骤出发，将建议注入智能体的推理内容，重新执行K=3次分支。最后通过裁判对新分支评分，并利用同层兄弟、跨层深度及根节点等策略提取偏好对，经过最小边际阈值筛选与缓存未命中软过滤，形成最终数据集。

特点

ReplayDPO的核心特点在于其精细的噪声控制与信号质量保障。数据集提供了多种边际阈值版本（m05与m10），其中m10严格度更高，偏好对的质量更优。经过v2版本更新，剔除了HotpotQA中无工具关闭行为的偏好对、反方向信号对以及低分正例，使正例的关闭工具使用率从77.0%提升至95.4%，偏好方向正确性显著增强。此外，针对StableToolBench的缓存未命中问题，数据集采用四象限交叉过滤策略，仅清除正例因实时API响应而获胜的危险象限，保留双方均命中缓存的对称信号，从而大幅减少虚假偏好。

使用方法

ReplayDPO兼容TRL库中的对话式DPOTrainer，可便捷融入训练流程。用户需从JSONL文件中读取每条数据，利用提供的prompt_messages、chosen_messages和rejected_messages字段，构造出与OpenAI聊天格式兼容的对话结构，随后调用to_dpo函数提取正负例与公共提示。推荐在Qwen3.5-9B基座模型上采用QLoRA-DPO微调，设定beta为0.1、学习率为5e-5、训练3个轮次，并使用梯度累积，以平衡效率与性能。对于稳定性要求更高的场景，建议采用v2版本并考虑进一步过滤正例中工具响应为缓存未命中的比例超过50%的样本。

背景与挑战

背景概述

ReplayDPO数据集由研究团队于2025年构建，专注于工具使用智能体的偏好对齐训练，基于StableToolBench与HotpotQA的失败重播数据生成偏好对。该数据集旨在解决大语言模型在复杂工具调用场景中的决策优化问题，通过多分支重播与逐块评判机制提取高质量的偏好信号，为DPO/DMPO训练提供数据支撑。其影响力体现在对工具使用智能体行为校准的贡献，特别是通过结构化过滤策略提升偏好对质量，为强化学习与偏好学习领域提供了新的数据构建范式。

当前挑战

ReplayDPO所解决的领域挑战在于工具使用智能体在真实环境中的动作选择与工具调用的优化，传统监督学习难以捕获多层次决策中的偏好差异。构建过程中面临多重挑战：首先，如何从多分支重播中提取一致且有效的偏好信号，避免噪声与虚假相关性；其次，缓存缺失导致的响应不可复现问题需通过软过滤保留双向缺失对中的有效对比；再者，HotpotQA与StableToolBench数据源的异构性要求消除结构矛盾，如HotpotQA对Finish工具的抑制倾向；最后，评判模型的少量误差与宽松评分阈值产生的弱偏好信号需通过严格过滤（如chosen_score≥0.5）来剔除，以保障训练梯度的稳定性。

常用场景

经典使用场景

在工具增强型大语言模型的对齐优化研究中，ReplayDPO数据集为偏好学习提供了关键资源。该数据集源自StableToolBench和HotpotQA环境下的多分支回放管道，通过逐块裁判与重采样策略，构建了对齐工具使用智能体的偏好对。经典用法包括利用'孪生分支'（sibling）规则提取同一提示下不同回放分支的优质信号，或通过'跨深度'（cross_depth）、'根节点'（root）策略捕获决策路径中的优劣差异，进而用于直接偏好优化（DPO）训练，以提升模型在复杂工具调用场景中的行为一致性。

解决学术问题

该数据集精准回应了工具使用型智能体在偏好学习中的核心困境——如何从连续决策轨迹中提取可靠的对比信号。传统方法往往因缺乏细粒度的错误定位而引入噪声，ReplayDPO通过逐块裁判局部化首个错误助手中转，并注入可操作提示进行重采样，生成了高边缘差值的偏好对。它解决了偏好信号混乱、缓存缺失干扰、以及训练中'非关闭倾向'等学术难题，为在多步工具调用中实现有效的RLHF提供了方法论依据，推动了更稳定的工具对齐框架发展。

衍生相关工作

ReplayDPO的发布催生了一系列关于偏好信号质量与数据过滤策略的后续工作。v1版本暴露的HotpotQA无'Finish'问题、v2版本的结构性过滤优化，直接启发了'反信号消除'与'边缘过滤'机制的研究，例如丢弃仅含缓存缺失的虚假胜出对手对。此外，基于该数据集，研究者比较了不同边缘阈值（m05 vs m10）对训练稳定性的影响，并衍生出针对多轮工具调用中'跨缓存对称性'的鲁棒偏好提取方法，为DPO在非静态环境中的应用铺平了道路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集