W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.43-s_star-0.4-20260429-230725-margin

Name: W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.43-s_star-0.4-20260429-230725-margin
Creator: W-61
Published: 2026-04-30 06:41:04
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.43-s_star-0.4-20260429-230725-margin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个New-DPO训练运行中导出的每步边际摘要统计。包含多个特征，如epoch、step、batch_size、mean、std等，以及一个名为sample的序列和一个名为npy的字符串。数据集的分割为train，包含677个示例。源运行信息包括模型仓库ID、基础模型、训练运行名称、W&B项目、训练器类型等。边际训练参数包括beta、f_divergence_type、f_alpha_divergence_coef、s_star、eta和q_t。数据集混合器使用的是HuggingFaceH4/ultrafeedback_binarized。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes features such as epoch, step, batch_size, mean, std, etc., as well as a sequence named sample and a string named npy. The dataset split is train, containing 677 examples. Source run information includes model repo id, base model, training run name, W&B project, trainer type, etc. Margin training arguments include beta, f_divergence_type, f_alpha_divergence_coef, s_star, eta, and q_t. The dataset mixer uses HuggingFaceH4/ultrafeedback_binarized.

提供机构：

W-61

搜集汇总

数据集介绍

构建方式

本数据集源自一项基于Qwen3-8B基础模型进行的新版直接偏好优化（New-DPO）训练实验。在训练过程中，系统以每步（step）为粒度，对训练批次中每个样本的偏好边际（margin）进行记录与汇总统计。数据集的构建依托于Ultrafeedback二值化偏好数据集，通过设置特定的超参数如目标参考概率q_t为0.43、参考点s_star为0.4，以及反向KL散度作为f-散度类型，在4×H200 GPU环境下以批量大小128运行200步训练后，将边际日志导出为结构化表格。最终包含677条训练记录，每条记录对应一个训练步的边际统计摘要。

特点

该数据集的核心特色在于其逐步（per-step）的边际统计摘要结构。每行数据不仅包含均值、标准差、最小值、第10百分位数、中位数、第90百分位数与最大值等描述性统计量，还保留正样本比例（pos_frac）及该步有效批次中每个样本的边际值序列（sample字段）。当训练配置启用完整数组保存时，还提供指向npy文件的路径。这种细粒度的边际信息为深入分析DPO训练过程中偏好信号的变化规律、模型收敛行为以及边际分布演化提供了宝贵的数据资源。

使用方法

本数据集以标准的HuggingFace Datasets格式发布，仅包含一个train分割，共677个样本。用户可通过HuggingFace Datasets库直接加载，亦可根据数据集中提供的step和epoch字段按训练步序进行分析与可视化。数据集适用于偏好优化算法的边际动态研究、训练稳定性评估以及调节超参数（如beta、s_star、q_t）对边际分布影响的实证分析。配合原始训练日志与W&B项目链接，可进一步追溯每步训练的具体上下文，为复现实验或进行对比研究提供了便利。

背景与挑战

背景概述

在大语言模型（LLM）的对齐训练中，直接偏好优化（DPO）及其变体已成为继强化学习从人类反馈（RLHF）之后的主流范式。然而，传统的DPO在训练动态监控与边际（margin）效应分析方面存在显著盲区，难以精细化捕捉每一步训练中偏好对之间的得分差异及其分布演变。2024年发布的qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.43-s_star-0.4-20260429-230725-margin数据集，由研究团队W-61基于Qwen3-8B基座模型和UltraFeedback二值化偏好数据构建，核心围绕一种名为“New-DPO”的改进算法展开。该数据集的独特价值在于，它系统性地记录了训练过程中每一步的边际统计量，包括均值、标准差、分位数及正样本比例等关键指标，为深入理解DPO训练的动态机理、边际分布变化以及训练稳定性提供了前所未有的细粒度实证基础，对推动偏好对齐算法的可解释性与鲁棒性研究具有重要影响。

当前挑战

该数据集所应对的核心领域挑战在于现有对齐算法训练过程的高度黑箱化。传统评估通常仅依赖最终模型性能，忽略了训练中间阶段边际信号的演变模式，导致难以诊断训练不收敛、偏好翻转或模式坍塌等问题。具体而言，该数据集通过记录每个batch的边际样本，旨在揭示偏好得分差异如何随训练演变，从而为动态调整超参数（如q_target和s_star）提供依据。在构建过程中，主要挑战包括：第一，高效存储与检索大量高精度的逐样本边际张量（如npy文件），在大规模训练场景下需平衡存储开销与日志频率；第二，确保在分布式训练环境下收集的边际数据完整且跨step对齐，以避免因节点间时钟偏差或批次错位导致统计失真；第三，设计合理的采样策略，仅在特定步长（如margin_log_steps=1）记录，以控制数据量同时保留关键动态信息，实现监控粒度与系统负载之间的最优权衡。

常用场景

经典使用场景

该数据集源自基于Qwen3-8B基础模型进行New-DPO（新式直接偏好优化）训练过程中的边际收益（margin）统计快照，记录了每个训练步上的边际分布特征，如均值、标准差、分位数及正样本占比。其经典使用场景是作为强化学习与人类反馈（RLHF）领域中的过程监控与诊断工具，研究者可借助这些逐步边际变化曲线，动态评估偏好对齐训练中的收敛行为与奖励信号质量。

衍生相关工作

该数据集衍生的相关工作集中在偏好对齐训练的动态分析工具链与可视化框架的开发上。研究人员可以基于这些边际分布特征设计自适应调整策略，例如根据p10与p90的差距动态缩放损失函数中的温度参数。此外，该数据集的统计模式也被用于训练元学习模型预测DPO训练的最佳早停点，从而衍生出关于高效自动化超参数搜索的后续工作。

数据集最近研究