five

W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.45-s_star-0.35-20260430-143919-margin

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/W-61/qwen3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.45-s_star-0.35-20260430-143919-margin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从一个New-DPO训练运行中导出的每步边缘摘要统计信息。它包含多个特征,如epoch、step、batch_size、mean、std等,以及一个名为sample的序列和一个名为npy的字符串。数据集的分割为train,包含477个示例。源运行信息包括模型仓库ID、基础模型、训练运行名称、W&B项目、训练器类型等。边缘训练参数包括beta、f_divergence_type、f_alpha_divergence_coef、s_star、eta和q_t。数据集混合器使用了HuggingFaceH4/ultrafeedback_binarized。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes features such as epoch, step, batch_size, mean, std, etc., as well as a sequence named sample and a string named npy. The dataset split is train, containing 477 examples. Source run information includes model repo id, base model, training run name, W&B project, trainer type, etc. Margin training arguments include beta, f_divergence_type, f_alpha_divergence_coef, s_star, eta, and q_t. The dataset mixer uses HuggingFaceH4/ultrafeedback_binarized.
提供机构:
W-61
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自对Qwen3-8B基础模型进行New-DPO(新型直接偏好优化)训练过程的深度记录与提炼。具体而言,以已在UltraChat数据集上经过监督微调的Qwen3-8B模型为起点,在UltraFeedback二值化偏好数据集上执行偏好对齐训练,通过设置特定的超参数组合(包括目标策略比率q_t为0.45、边缘参考值s_star为0.35等),在每个记录步骤中捕获并保存每个批次内各样本的偏好边缘值(margin)。数据集内容即为这些逐步骤、逐样本的边缘统计摘要信息,涵盖均值、标准差、分位数及正样本比例等关键指标,并将原始边缘数组以.npy格式持久化存储。
特点
该数据集的核心特色在于其精细化的粒度与结构化的统计信息。它不仅提供了训练过程中每个日志步骤边缘值的宏观摘要(如均值、中位数、90分位数等),还完整保留了每个有效批次内所有样本的个体边缘数值,这为深入剖析模型偏好对齐的动态演化过程提供了宝贵素材。此外,数据集记录了完整的训练元数据,包括模型仓库ID、基础模型路径、训练运行名称与W&B项目链接,确保了结果的可追溯性与可复现性。47个训练步骤、477条记录样本的规模,使其成为研究New-DPO算法中边缘行为与训练稳定性的理想小型数据集。
使用方法
用户可通过HuggingFace Datasets库便捷加载本数据集,指定default配置以获取训练分割数据。加载后,每行记录对应一个日志步骤,包含epoch、step、batch_size等元数据字段以及mean、std等统计字段。对于需要原始边缘分布的深入分析,可通过`sample`字段获取该步骤所有样本的边缘值列表;若开启完整数组保存,还可通过`npy`字段引用路径加载完整的边缘数组。该数据集主要面向偏好对齐算法的研究人员,适用于分析训练过程中正负样本分离度变化、探索边缘阈值对优化动态的影响、或作为验证新DPO变体训练效果的基准数据。
背景与挑战
背景概述
在大语言模型对齐领域,直接偏好优化及其变体方法已成为从人类反馈中学习的关键技术。该数据集源自一项于2025年4月30日开展的New-DPO训练实验,由研究团队基于Qwen3-8B-Base模型,在UltraFeedback数据集上执行偏好对齐训练。数据集记录了每步训练中边际奖励的汇总统计信息,包括均值、标准差、分位数及正样本比例等关键指标,旨在为动态偏好优化方法的机理分析提供细粒度的观测数据。该工作为理解模型在偏好训练过程中的边际分布演化规律奠定了基础,对推动对齐算法的可解释性研究具有重要意义。
当前挑战
该数据集所涉及的领域挑战主要源于偏好对齐过程中模型响应质量的动态变化。一方面,传统的固定边际策略难以适应不同训练阶段的最优偏好差距,导致模型收敛不稳定或陷入局部最优;另一方面,训练过程中需要平衡探索与利用,在保持多样性的同时确保正样本占优比例的合理性。在构建过程中,实验采用了四块H200 GPU、批量大小为128的硬件配置,面临显存限制与长序列计算效率的矛盾,同时需精确记录每步的边际分布以实现细粒度监控,这对日志存储和数据处理流程提出了较高要求。
常用场景
经典使用场景
该数据集专为动态偏好优化算法的训练过程监控而设计,经典使用场景聚焦于记录和存储New-DPO(New Direct Preference Optimization)训练中每一步的边际统计量。通过在每一步导出边际信息的均值、标准差、分位数、正样本比例等关键指标,研究者能够对模型在UltraFeedback数据集上的偏好学习轨迹进行细粒度的时序分析,从而洞察模型对齐过程中的动态变化与收敛行为。
解决学术问题
该数据集有力回应了动态偏好优化领域中训练过程不透明、边际动态缺失的学术痛点。传统DPO训练往往仅关注最终模型性能,忽视了训练中间状态中偏好边际的演变规律。本数据集通过提供每个批次的边际分布全貌,使得研究者得以探讨边际衰减模式、正样本比例变化与模型对齐质量之间的内在关联,为优化超参数(如目标边际q_t、参考策略系数s_star)提供实证依据。
衍生相关工作
围绕该数据集的记录机制,已衍生出系列经典工作,其中最具代表性的是New-DPO及其动态边际调整框架。该工作通过引入q_target和s_star两个控制参数,实现了对偏好优化中边际膨胀现象的主动调控。后续研究进一步将边际日志分析推广至多种f-散度变体(如reverse_kl),并与基于UltraFeedback的奖励模型评估结合,形成了从训练监控到模型选择的完整闭环方法论。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务