W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.4-s_star-0.45-20260430-140517-margin

Name: W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.4-s_star-0.45-20260430-140517-margin
Creator: W-61
Published: 2026-05-01 00:35:15
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.4-s_star-0.45-20260430-140517-margin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个名为New-DPO的训练运行中导出的每一步的边际摘要统计。数据集包含了训练过程中的多个特征，如epoch、step、batch_size、mean、std等统计信息，以及每个步骤的样本边际和保存的完整数组路径。训练运行基于模型W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.4-s_star-0.45-20260430-140517，使用了HuggingFaceH4/ultrafeedback_binarized数据集进行混合训练。训练参数包括beta、f_divergence_type、f_alpha_divergence_coef、s_star、eta和q_t等。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes multiple features during the training process, such as epoch, step, batch_size, mean, std, and other statistical information, as well as per-example margins for each step and the path to the saved full array. The training run is based on the model W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.4-s_star-0.45-20260430-140517 and uses the HuggingFaceH4/ultrafeedback_binarized dataset for mixed training. Training parameters include beta, f_divergence_type, f_alpha_divergence_coef, s_star, eta, and q_t.

提供机构：

W-61

搜集汇总

数据集介绍

构建方式

该数据集源自对Qwen2.5-8B基座模型在Ultrafeedback二值化偏好数据集上进行的New-DPO训练过程的深度追踪。在训练进程中，系统于每间隔一个日志步骤的节点，完整捕获了当前批次中每个样本的边际（margin）统计信息。具体而言，通过配置边际日志保存路径与全量数组保存选项，将每个有效批次的逐样本边际值序列、步数、批次大小以及一系列描述性统计量（如均值、标准差、分位数及正样本占比）系统性地组织并存储为结构化的数据表格。最终，将这些记录汇集成包含554个训练样本的单一训练划分，从而构建出此份用于分析模型优化动态的数据集。

使用方法

此数据集的使用需依赖Hugging Face Datasets库进行加载，通过指定配置名'default'并选配'data/train-*'路径下的文件即可获取训练划分。用户可遍历每步记录中的统计字段，分析边际值的分布演化，或通过sample列调取特定步骤的逐样本边际序列进行细粒度诊断。对于启用了全量保存的运行，npy字段为加载外部NumPy数组提供了路径指引，便于进行大规模边际趋势的可视化与统计建模，从而服务于偏好训练算法的理论验证与实验分析。

背景与挑战

背景概述

该数据集由研究者W-61于2026年4月30日创建，基于Qwen3-8B基础模型，采用新式直接偏好优化（New-DPO）算法在UltraFeedback数据集上进行微调训练得到。数据集核心记录的是训练过程中每一步的边际（margin）统计量，包括均值、标准差、分位数及正样本比例等，旨在为偏好对齐训练中的动态监控与调参提供细粒度分析工具。作为大语言模型偏好对齐领域的一项基础设施资源，该数据集为深入理解DPO变体算法的训练动态、边际演化规律及超参数影响提供了宝贵的实证数据，有助于推动更稳定、高效的对齐训练策略研究。

当前挑战

该数据集解决的核心领域挑战是偏好对齐训练中边际分布的不可知性——传统DPO训练仅依赖最终奖励或损失函数，难以捕捉中间步骤的奖励差异及正负样本分离程度，导致训练不稳定、模式坍塌或过优化。数据集通过记录每步的边际统计值，使得训练动态可审计、可调参。构建过程中的挑战包括：1) 在多个GPU（4×H200）长序列训练场景中，实时保存全量边际数组对存储和I/O构成巨大压力；2) 需协调多个超参数（如q_t=0.4, s_star=0.45, margin保存步长=1）以兼顾采样效率与数据完整性；3) 保证边际数据的数值精度与跨步一致性，避免因浮点累积误差或并行通信延迟导致统计偏差。

常用场景

经典使用场景

该数据集记录了Qwen3-8B基座模型在New-DPO训练过程中每步的边际统计量，涵盖均值、标准差、分位数等丰富特征，是深入剖析对齐训练动态的关键数据资源。其最经典的使用场景在于探究DPO变体算法中边际演化规律，研究者可通过分析不同训练阶段边际分布的集中趋势与离散程度，揭示模型偏好调整的内在机制，进而优化超参数配置。

解决学术问题

该数据集有效解决了DPO训练中边际变化黑箱化这一核心难题，为理解反向KL散度、f-divergence系数及目标策略温度等超参数对偏好学习的影响提供了量化依据。通过揭示边际统计量随训练步长的演化模式，它使得研究者能够系统分析SFT模型向对齐策略转变时的行为突变，推动了动态DPO等自适应正则化方法的理论发展，对构建更稳健的偏好对齐框架具有里程碑式意义。

实际应用

在实际应用中，该数据集可作为调试和监控大模型对齐训练流程的质量控制工具。开发者通过比对实时产出的边际统计量与该数据集中的基准演变曲线，能够快速诊断训练是否出现模式坍塌或收敛异常。此外，它支持不同批次配置下的边际分布对比，为自动化调整训练策略提供数据支撑，显著降低大规模RLHF训练时的试错成本，加速高质量对话助手模型的迭代进程。

数据集最近研究