jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log

Name: jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log
Creator: jackf857
Published: 2026-05-01 01:31:56
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个名为New-DPO的训练运行中导出的每一步的边缘摘要统计信息。数据集包含了训练过程中的多个统计特征，如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等。数据集来源于模型仓库jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8，基础模型为jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452。训练运行名称为qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8，W&B项目为qwen3-hh-new-dpo-hyperparamter-sweep。边缘训练参数包括beta为0.1，f_divergence_type为reverse_kl，f_alpha_divergence_coef为1.0，s_star为0.8，eta为0.1，q_t为0.45。数据集混合器使用了Anthropic/hh-rlhf数据集，比例为1.0。

This dataset contains per-step margin summary statistics exported from a New-DPO training run. The dataset includes various statistical features during training, such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The dataset originates from the model repository jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8, with the base model being jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452. The training run name is qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8, and the W&B project is qwen3-hh-new-dpo-hyperparamter-sweep. Margin training arguments include beta of 0.1, f_divergence_type of reverse_kl, f_alpha_divergence_coef of 1.0, s_star of 0.8, eta of 0.1, and q_t of 0.45. The dataset mixer uses the Anthropic/hh-rlhf dataset with a ratio of 1.0.

提供机构：

jackf857

搜集汇总

数据集介绍

构建方式

本数据集源自一次基于Qwen3-8B基础模型的有害性偏好对齐实验，采用New-DPO算法在人类反馈数据集Anthropic/hh-rlhf上进行微调训练。训练过程中，每个步长均会记录模型对正负样本对的边际分数，这些边际分数反映了模型在偏好判断上的置信度差异。数据集通过设定特定超参数配置，包括温度系数q_target为0.45、正则化项eta为0.1、偏移阈值s_star为0.8，并以批大小64在4块H200 GPU上运行200步后产出。系统将每一步的边际统计量如均值、标准差、分位数等自动汇总，并可将完整的边际数组保存为.npy文件，从而构建出包含661条训练记录的结构化数据集。

特点

该数据集的核心特点在于其细粒度的边际统计信息，涵盖了从基础统计量到分布形态的全方位刻画。除常规的均值、标准差、最值外，还提供了第10、50、90百分位数以及正值比例等指标，能够直观揭示边际分数在不同训练阶段的分布特征。特别地，每条记录均包含一个采样数组，用于存储该步长下有效批次的逐样本边际值，结合可选的完整数组保存，使研究者能够深入分析单个样本对训练动态的影响。这种多层级的数据结构为理解New-DPO训练过程中的模型偏好演化提供了丰富的诊断维度。

使用方法

本数据集主要面向偏好对齐算法的理论分析与训练监控场景。使用者可直接加载默认的train分片，利用epoch、step等字段追踪边际统计量随训练进程的变化趋势，或通过pos_frac指标评估正样本相对优势的波动情况。对于需要深入分析边际分布的场景，可读取sample列中的数组进行密度估计或异常检测，而npy字段则提供了访问完整边际备份的路径。结合W&B项目中记录的原始训练配置，研究者能够复现特定实验条件并进行比较分析，从而优化New-DPO训练中的超参数选择策略。

背景与挑战

背景概述

在大型语言模型的对齐研究中，基于人类反馈的强化学习（RLHF）及其变体——如直接偏好优化（DPO）——已成为从预训练模型向符合人类价值观系统演进的核心技术。该数据集由研究者jackf857于2026年创建，基于Qwen3-8B基础模型在Anthropic的hh-rlhf无害性数据集上的新DPO训练流程构建。其核心研究问题在于探索新DPO算法中超参数（如q_target、eta和s_star）对优化过程中每步边际统计量的影响，进而揭示偏好优化算法的内在动态。该数据集记录了661个训练步的详细边际信息，包括均值、标准差及分位数等关键统计量，为深入理解偏好优化的梯度行为与收敛特性提供了宝贵的实证基础，对推动对齐算法的可解释性和鲁棒性研究具有重要意义。

当前挑战

该数据集所解决的核心领域挑战在于偏好优化算法的可控性与稳定性问题。传统DPO训练中，算法倾向于在早期阶段快速放大偏好差异，导致策略剧烈偏移和泛化能力下降。新DPO机制引入的f散度约束（如reverse_kl）与s_star等调节参数，旨在控制优化过程中的边际分布形态，但超参数的敏感性与最优配置的探索构成主要挑战。构建过程中，研究者面临的关键挑战包括边际统计量的完整捕获与存储——需平衡每步全量边际矩阵的保存开销与数据可复现性（如npy路径的设计），以及在有限计算资源（4×H200 GPU）下对大模型进行高频率、多步长的稳定日志输出。这些努力确保了数据集的可靠性与科学价值。

常用场景

经典使用场景

在大型语言模型的对齐优化研究中，该数据集作为New-DPO训练过程中逐步骤边际统计量的记录档案，为研究者提供了理解模型偏好学习动态的窗口。其核心应用场景在于分析强化学习从人类反馈（RLHF）过程中奖励边际的变化规律，通过追踪均值、标准差及分位数等指标，洞察策略模型在无害性优化任务中的收敛行为与稳定性特征。

实际应用

在实际场景中，该数据集可服务于安全对话系统的迭代开发。通过对边际均值与标准差的监控，工程师能够及时预警模型在无害性训练中出现的模式崩溃或奖励过度集中问题，从而校准目标函数中的散度类型与系数，确保生成内容既保持有用性又规避潜在风险，适用于内容审核、教育辅导及医疗咨询等对安全性敏感的互动领域。

衍生相关工作

该数据集所锚定的训练方案推动了New-DPO系列研究的发展，例如基于边际统计的自动超参数搜索工作，以及将s_star作为自我约束边界的创新方法。相关经典工作还包括引入f-divergence族的对齐框架，通过分析该数据集中的边际分布形态，研究者已衍生出动态调整eta参数的自适应策略，进一步扩展了DPO家族在无害性优化上的理论边界。

以上内容由遇见数据集搜集并总结生成