jackf857/qwen3-8b-base-new-dpo-hh-helpful-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log

Name: jackf857/qwen3-8b-base-new-dpo-hh-helpful-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log
Creator: jackf857
Published: 2026-05-01 04:33:43
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jackf857/qwen3-8b-base-new-dpo-hh-helpful-4xh200-batch-64-q_t-0.45-eta-0.1-s_star-0.8-margin-log

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个名为New-DPO的训练运行中导出的每一步的边缘摘要统计信息。数据集包含了训练过程中的多个统计特征，如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等。数据集的来源运行信息包括模型仓库ID、基础模型、训练运行名称、W&B项目、训练器类型等。边缘训练参数包括beta、f_divergence_type、f_alpha_divergence_coef、s_star、eta和q_t等。数据集混合器信息显示数据来源于Anthropic/hh-rlhf。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes various statistical features during the training process, such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The source run information includes model repo id, base model, training run name, W&B project, trainer type, etc. The margin training arguments include beta, f_divergence_type, f_alpha_divergence_coef, s_star, eta, and q_t. The dataset mixer information indicates that the data is sourced from Anthropic/hh-rlhf.

提供机构：

jackf857

搜集汇总

数据集介绍

构建方式

该数据集源自对通义千问3系列8B规模基座模型进行的一次偏好对齐训练实验，具体采用了New-DPO算法在Anthropic的hh-rlhf数据集上执行微调。构建过程中，训练配置精细调控：反向KL散度作为f散度类型，beta参数设为0.1，目标参考比率q_target为0.45，s_star为0.8，eta为0.1。训练每步记录的边际统计数据被系统化地保存，涵盖了从均值、标准差到十分位数等多元分布信息，并支持将完整边际数组导出为.npy文件，总计包含681个训练步的样点。

使用方法

使用该数据集时，用户可通过HuggingFace Datasets库直接加载train分割数据，读取列如'mean'、'std'、'p10'等指标以评估各训练步的边际分布特征。若需获取完整边际张量，可利用'npy'列指定的文件路径加载对应的.npy数组。此数据集特别适合用于复现训练动态、比较不同超参数配置下的优化轨迹，或作为高维边际分布可视化分析的数据源，助力偏好对齐研究。

背景与挑战

背景概述

在大型语言模型（LLM）的对齐优化领域，直接偏好优化（DPO）及其变体——新式直接偏好优化（New-DPO）——已成为提升模型输出与人类偏好一致性的重要方法。由研究者jackf857主导，基于Qwen3-8B基座模型，该数据集于近期创建，旨在记录使用New-DPO算法在Anthropic的hh-rlhf数据集上训练时，每一步的边际统计量（margin summary statistics）。通过超参数如q_target=0.45、eta=0.1、s_star=0.8的精细调控，该数据集为理解偏好优化过程中模型输出分布的动态变化提供了关键中间表征，对探索DPO变体的收敛行为与边际演化具有重要参考价值，尤其服务于超参数搜索与训练监控领域。

当前挑战

该数据集面临的挑战主要体现在两方面。在领域问题层面，它致力于解决偏好对齐训练中边际分布（margin distribution）难以量化与监控的难题，传统指标如准确率或损失无法直接揭示模型在每步迭代中对正负样本的区分程度与置信度。在构建过程中，挑战包括：高效存储与存取大规模训练步对应的全量边际数组（full margin array），因为当margin_save_full=True时，数据量激增，需在存储成本与分析便利间权衡；同时，超参数组合（如beta=0.1、f_divergence_type为reverse_kl）的互作用效应导致边际统计量对训练动态高度敏感，如何确保采样步（仅记录第1步）的代表性与完整性亦构成难题。

常用场景

经典使用场景

在大型语言模型的对齐研究中，该数据集作为New-DPO（一种改进的直接偏好优化变体）训练过程的边际统计日志，记录了每一步训练中偏好边际（margin）的详尽分布信息，包括均值、标准差、分位数等关键统计量。研究人员常借助这些日志监控训练动态，分析偏好信号的演化规律，并用于诊断模型优化是否发生崩溃或过拟合。该数据集尤其适用于探究修正型KL散度（如reverse_kl）与超参数（如q_t、s_star、eta）如何影响边际分布形态，从而为偏好对齐算法的理论分析与实证调优提供细粒度支撑。

解决学术问题

该数据集的核心学术贡献在于解决了从黑箱训练历程中提取可解释偏好信号的问题，使研究者能够量化DPO系列算法中边际的演变趋势与稳定性。传统偏好优化工作多关注最终模型性能，而忽视了训练中间态中偏好强度的衰减或突增现象。借助该日志，学术界可以系统性地研究边际分布的统计特性（如偏态、离散度）与最终对齐质量之间的因果关联，揭示正样本比例（pos_frac）与边际均值之间的动态平衡，从而推动对DPO损失函数几何行为与训练收敛条件的深入理解。

实际应用

在实际工业级语言模型的对齐流水线中，该数据集可被工程团队用作训练监控系统的基准参考。通过对比不同超参数组合下边际统计量的变化模式，开发者能够快速定位训练是否出现模式坍塌或奖励过拟合等病态现象，从而动态调整学习率或KL正则化强度。此外，该日志还能辅助自动化早停策略的设计——例如当边际均值低于某个阈值且正样本比例持续下降时，触发模型保存以防止退化，进而提升模型上线前的鲁棒性与响应质量。

数据集最近研究