jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.45-margin-log

Name: jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.45-margin-log
Creator: jackf857
Published: 2026-05-01 00:12:13
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.45-margin-log

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个名为New-DPO的训练运行中导出的每步边际摘要统计。数据集包含了训练过程中的多个统计特征，如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等。数据集的来源运行包括模型仓库ID、基础模型、训练运行名称、W&B项目、训练器类型、边际日志路径等详细信息。此外，还提供了边际训练参数和数据集混合器的信息。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes various statistical features during the training process, such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The source run details include model repo id, base model, training run name, W&B project, trainer type, margin log path, etc. Additionally, margin training arguments and dataset mixer information are provided.

提供机构：

jackf857

搜集汇总

数据集介绍

构建方式

该数据集源于对Qwen3-8B基座模型在Anthropic的hh-rlhf无害性偏好数据集上进行的New-DPO训练过程。训练采用特定的超参数配置，包括beta为0.1、f散度类型为reverse_kl、s_star为0.45、eta为0.1以及q_target为0.45。在每个训练步中，系统会记录有效批次内每个样本的边际（margin）统计量，包括均值、标准差、最小值、十分位数、中位数、九十分位数、最大值及正样本分数，并将完整的边际数组以npy格式保存，从而形成包含661条训练样本的数据集。

特点

本数据集的核心特色在于提供了New-DPO训练过程中每步的边际摘要统计量，涵盖均值、标准差、分位数及正样本比例等多维度指标，为深入分析模型偏好对齐的动态演化过程提供了细粒度数据。此外，数据集保存了完整边际数组的路径，便于研究者对训练过程中样本级别的偏好边际分布进行复现与再分析。数据来源严格基于Anthropic/hh-rlhf的无害性子集，确保了领域聚焦性与实验可重复性。

使用方法

使用时可通过Hugging Face Datasets库直接加载default配置下的train分割，获取包含661条样本的表格数据。每条记录包含epoch、step、batch_size及各类边缘统计列，其中sample列为该步有效批次内每个样本的边际值序列，npy列则指向完整的边际数组文件。研究者可基于这些统计量重建训练过程中的边际演化曲线，或结合原始训练超参数进行偏好学习算法的消融实验与超参数灵敏度分析。

背景与挑战

背景概述

该数据集由研究者jackf857于2025年创建，基于Qwen3-8B基础模型，在Anthropic的hh-rlhf无害性偏好数据集上通过New-DPO算法进行训练，旨在探索如何通过先进的对齐技术提升大语言模型在安全性与价值对齐方面的表现。核心研究问题聚焦于新型直接偏好优化方法（New-DPO）中边际（margin）统计量的动态演化规律，特别是引入s_star、eta和q_target等超参数对模型偏好学习的影响。该数据集记录了每一步训练中的边际统计量（如均值、标准差、分位数等），为理解DPO变体的训练动态提供了微观视角，对推动更稳健、更安全的语言模型对齐研究具有重要参考价值。

当前挑战

该数据集面临的核心挑战在于两个方面。从领域问题看，大语言模型的无害性对齐仍是关键难题，传统DPO方法可能因边际分布不合理导致偏好翻转或训练不稳定，而New-DPO通过引入s_star和eta等超参数试图缓解该问题，但其最优配置和泛化能力尚未明确。从构建过程看，该数据集仅包含661条训练步骤记录，样本量有限，且来源于单次超参数组合（q_t=0.45, eta=0.1, s_star=0.45）的单一训练运行，缺乏跨参数空间和随机种子下的系统对比，可能无法全面反映边际统计量的普遍规律。此外，数据集的发布格式以摘要统计量为主，虽附有部分全量边际数组，但未提供原始logit或奖励模型分数，限制了深层分析的可能。

常用场景

经典使用场景

在大语言模型的对齐优化研究中，该数据集作为New-DPO训练过程的边际统计摘要，为分析模型偏好学习行为提供了关键工具。研究者可利用其中记录的每步边际均值、标准差、分位数等统计量，系统性地监控模型在‘harmless’安全对齐任务上的收敛进程与动态变化。其经典用法在于，通过追踪边际分布的演变，验证New-DPO算法中特殊机制（如q_t与s_star参数调控）对模型策略更新幅度的影响，从而为超参数调优提供量化依据。

衍生相关工作

该数据集的问世催生了一系列围绕边际动态分析的研究工作。后续学者利用此数据验证了不同f-散度类型（如reverse_kl与jsd）对边际分布形态的差异化影响，并在此基础上提出了自适应eta调节策略。此外，该数据集也启发了针对多轮对话场景下边际一致性检验的工作，以及将边际统计信息作为早停准则的应用研究。这些衍生工作共同构成了大模型对齐领域中一套从数据记录到理论建模的完整研究链条，显著加速了安全强化学习算法的迭代进程。

数据集最近研究