five

jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5-margin-log

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5-margin-log
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从一个新的DPO训练运行中导出的每步边缘摘要统计。数据集包含661行训练数据,每行数据包括epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等特征。数据集的来源是模型仓库`jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5`,基础模型是`jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452`。训练运行名称为`qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5`,W&B项目为`qwen3-hh-new-dpo-hyperparamter-sweep`。边缘训练参数包括beta为0.1,f_divergence_type为reverse_kl,f_alpha_divergence_coef为1.0,s_star为0.4,eta为0.5,q_t为0.45。数据集混合器使用了Anthropic/hh-rlhf数据。

Per-step margin summary statistics exported from a New-DPO training run. The dataset contains 661 rows of training data, each row includes features such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The source of the dataset is the model repository `jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5`, with the base model being `jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452`. The training run name is `qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.5`, and the W&B project is `qwen3-hh-new-dpo-hyperparamter-sweep`. The margin training parameters include beta as 0.1, f_divergence_type as reverse_kl, f_alpha_divergence_coef as 1.0, s_star as 0.4, eta as 0.5, and q_t as 0.45. The dataset mixer uses Anthropic/hh-rlhf data.
提供机构:
jackf857
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自一次基于Qwen3-8B基础模型的新式直接偏好优化(New-DPO)训练实验,旨在提升模型在无害性对话中的表现。其构建过程以Anthropic公司的hh-rlhf数据集作为唯一数据源,通过设定特定的超参数(如目标Q值q_target为0.45、s_star为0.4、eta为0.5)进行训练,并实时记录每个训练步的边际统计量。训练采用4张H200 GPU、批次大小为64的配置,每步保存完整的边际数组及对应的样本级边际值,最终汇总为661条训练记录,形成结构化的统计数据集。
特点
本数据集的核心特点在于提供了New-DPO训练过程中细粒度的边际分布信息,既包含均值、标准差、中位数等宏观统计量,也保留每个样本的完整边际数组及可选的npy文件路径。特别地,数据集中涵盖了每个有效训练步的pos_frac(正样本比例)以及p10、p90等分位数指标,能够全面刻画优化过程中的模型偏好变化。这种多维度、分层级的统计设计,使得数据集既可用于宏观的训练动态分析,也能支持微观的样本级边际分布研究。
使用方法
该数据集主要面向偏好优化算法的研究者与模型训练工程师使用。用户可通过加载train分片中的parquet文件,获取每个训练步的边际统计量,进行训练趋势分析。借助sample字段中的数组数据,研究者可以计算样本间的边际分布差异,或结合npy路径加载完整边际矩阵进行深入分析。数据集支持直接接入HuggingFace Datasets库进行快速读取,字段结构清晰,便于与常见的机器学习工作流整合。
背景与挑战
背景概述
该数据集由研究者jackf857基于Qwen3-8B基座模型,在Anthropic发布的HH-RLHF无害性偏好数据上,采用New-DPO算法进行训练时产生的逐步边际统计量导出。创建时间可追溯至2025年4月,其核心研究问题聚焦于在偏好对齐中引入边际正则化(如s_star、eta等超参数)对模型安全性与对齐效率的影响。通过记录每批次训练样本的margin分布统计量(均值、分位数、正样本比例等),该数据集为深入理解New-DPO算法在无害性优化中的动态行为提供了宝贵视角,是超参数搜索项目(W&B项目名)中的关键中间产物,对探索更鲁棒、更少超参数敏感的对齐方法具有重要参考价值。
当前挑战
该数据集面临的核心挑战在于,所解决的领域问题是偏好对齐算法在无害性场景下的边际衰减与训练不稳定性。具体而言,New-DPO虽然通过引入目标边际q_t和参考边际s_star等机制缓解了标准DPO中参考模型偏差,但超参数(如eta、s_star)的微小变化可能导致模型安全边界的剧烈波动,边际统计量的分布(如p10、p90区间极大)揭示了不同训练步下对齐质量的非均匀性。在构建过程中,挑战源于需要从大规模训练日志中高效导出并结构化存储每步的完整边际数组(npy文件达383KB),同时确保661条记录能忠实反映64批次大小下4张H200 GPU的长周期训练动态,对存储效率和日志采样策略提出了严苛要求。
常用场景
经典使用场景
在强化学习与人类反馈(RLHF)的对齐研究中,该数据集作为New-DPO(新式直接偏好优化)训练过程中逐步骤边际统计信息的快照,被广泛用于分析模型偏好对齐的动态演化。研究者通过追踪均值、标准差、分位数等边际分布指标,揭示训练过程中奖励模型对正负样本区分能力的变化规律,从而优化超参数如q_target、s_star和eta的配置。该数据集以661条训练记录为核心,为探索边际信号与模型安全行为之间的关联提供了关键的量化依据。
衍生相关工作
基于该数据集中逐步骤的边际日志,研究者进一步衍生出了多种前沿工作。例如,有学者利用其中保存的完整边际数组(npy列)开发了边际感知的动态β调度算法,显著提升了DPO训练的效率与稳定性。另有工作将其与逆强化学习结合,提出通过边际熵最小化来优化人类偏好模型的泛化能力。这些衍生研究不仅深化了对New-DPO训练过程中状态空间的理解,也为后续工作如基于边际博弈的对抗性对齐方法奠定了数据基石。
数据集最近研究
最新研究方向
该数据集源自基于Qwen3-8B基座模型在Anthropic/hh-rlhf无害性偏好数据上进行的New-DPO微调实验,记录了训练过程中每步的边际奖励分布统计量,聚焦于通过动态调节反向KL散度、目标策略比率q_t及边界参数s_star与eta来优化偏好对齐的稳定性。当前前沿研究正深入探索这种细粒度的边际信号如何在强化学习人类反馈中指导更稳健的奖励建模,尤其是在避免奖励黑客现象与提升生成内容无害性方面的关键作用。该数据集的发布为探究对齐算法的超参数敏感性与训练动态提供了宝贵的实证依据,对推动安全可控的大语言模型发展具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务